DL理论
泛化能力
- Predicting the Generalization Gap in Deep Networks with Margin Distributions (paper)
DNN可以完美的拟合随机的label,但是在测试集上的性能却很差。这个现象表明类似于cross-entropy这样的损失函数不是对泛化能力的可信赖的indicator,这就导致一个关键的问题:泛化的gap该如何从训练集和网络参数预测。
本文提出一个基于margin distribution的度量(训练数据到决策边界的距离)。该度量在CIFAR-10和CIFAR-100上显示出对泛化gap很强的关联。
这个度量可以很容易的应用到前向神经网络,而且可能导出新的loss function能获得更好的泛化能力。
收敛
20180927-On the loss landscape of a class of deep neural networks with no bad local valleys (paper)
本文确定出一类over-parameterized DNN+standard activation functions + CE loss,可以被证明其没有bad local valley。对于参数空间的任何点,存在一个连续的path使得ce loss不增加并且以任意的精度接近0。这就意味着网络没有sub-optimal strict local minima.
考虑一类DNN:有d input units, H hidden units, m output units 并且满足下面的条件
- 第一层的每个隐含节点可以将输入层节点的任意子集作为输入
- 高层的每个隐含节点可以将之前隐层任意子集的节点的任意子集作为输入
- 位于相同层的任意隐含单元组可以有共享/非共享的权重,在这种情况下,进来的神经元数量必须相等
- 存在N个隐藏节点跟输出节点相连,并有独立的权重。N表示训练样本的数量
- 网络中每个节点的输出要进行非线性激活(实的而且严格增)。
这个设置中,特别的一点是要求必须有至少N个神经元跟输出层相连。
Theorem - 存在无数的解有zero训练误差
- 损失函数的loss landscape没有任何bad local valley
- 不存在次优的严格局部极小
- 不存在局部极小
20181109-Gradient Descent Finds Global Minima of Deep Neural Networks (paper,CUM-杜少雷,Reddit讨论)
在目标函数非凸的情况下,梯度下降在训练深度神经网络中也能够找到全局最小值。本文证明,对于具有残差连接的超参数化的深度神经网络(ResNet),采用梯度下降可以在多项式时间内实现零训练损失。本文的分析基于由神经网络架构建立的Gram矩阵的特定结构。该结构显示在整个训练过程中,Gram矩阵是稳定的,并且这种稳定性意味着梯度下降算法的全局最优性。使用ResNet可以获得相对于全连接的前馈网络架构的优势。对于前馈神经网络,边界要求每层网络中的神经元数量随网络深度的增加呈指数级增长。对于ResNet,只要求每层的神经元数量随着网络深度的实现多项式缩放。我们进一步将此类分析扩展到深度残余卷积神经网络上,并获得了类似的收敛结果。
看懂文章需要的基础知识
- 算法复杂度分析,渐近分析理论
- 凸优化
- lipschitz 条件
- 矩阵求导
20181109-A Convergence Theory for Deep Learning via Over-Parameterization (paper, MIT-朱泽园)
The theory of multi-layer networks remains somewhat unsettled.
In this work, we prove why simple algorithms such as stochastic gradient descent (SGD) can find global minima on the training objective of DNNs. We only make two assumptions: the inputs do not degenerate and the network is over-parameterized. The latter means the number of hidden neurons is sufficiently large: polynomial in L, the number of DNN layers and in n, the number of training samples.
As concrete examples, on the training set and starting from randomly initialized weights, we show that SGD attains 100% accuracy in classification tasks, or minimizes regression loss in linear convergence speed ε∝e−Ω(T), with a number of iterations that only scales polynomial in n and L. Our theory applies to the widely-used but non-smooth ReLU activation, and to any smooth and possibly non-convex loss functions. In terms of network architectures, our theory at least applies to fully-connected neural networks, convolutional neural networks (CNN), and residual neural networks (ResNet).
大牛主页
实用trick
- 20181105-How deep is deep enough? - Optimizing deep neural network architecture (paper)
本文介绍了一个新的measure, called the generalized discrimination value (GDV), which quantifies how well different object classes separate in each layer. 由于它的定义,GDV对输入数据的平移和缩放不变,独立于特征的数量,以及独立于一层内神经元的扰动。我们计算了一个在MNIST数据中无监督训练的DBN中每一层的GDV,我们发现GDV首先提升,然后在30层之后变差,这就指出了对于数据分类任务最优的网络深度进一步的研究表明GDV可以作为一个统一的工具来确定各种深度神经网络中最优的层数。