github开源:https://nndl.github.io/
nndl作者:邱锡鹏
笔记作者:Isaac.(原创)
我们主要关注于采用误差反向传播来进行学习的神经网络。
神经网络一般可以看作是一个非线性模型,其基本组成单位为具有非线性激活函数的神经元。
神经元之间的连接权重就是需要学习的参数,可以通过梯度下降方法来进行学习。
目录结构
4.1 神经元
4.1.1 Sigmoid型激活函数
4.1.2 修正线性单元
4.1.3 Swish函数
4.1.4 高斯误差线性单元
4.1.5 Maxout单元
4.2 网络结构
4.2.1 前馈网络
4.2.2 记忆网络
4.2.3 图网络
4.3 前馈神经网络
4.3.1 通用近似定理
4.3.2 应用到机器学习
4.3.3 参数学习
4.4 反向传播算法
4.5 自动梯度计算
4.5.1 数值微分
4.5.2 符号微分
4.5.3 自动微分
4.6 优化问题
4.6.1 非凸优化问题
4.6.2 梯度消失问题
4.7 总结和深入阅读
4.1 神经元
人工神经元(Artificial Neuron),简称神经元(Neuron),是构成神经网络的基本单元,其主要是模拟生物神经元的结构和特性,接受一组输入信号并产出输出。
假设一个神经元接受 d个输入,令向量 来表示这组输入,并用净输入(Net Input)z ∈ R表示一个神经元所获得的输入信 号 x的加权和,
其中 是 d维的权重向量, 是偏置。
净输入 z 在经过一个非线性函数 f(·)后,得到神经元的活性值(Activation)a,
其中非线性函数 f(·)称为激活函数(Activation Function)。
激活函数在神经元中非常重要的。
激活函数需要具备以下几点性质:
- 连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数。
- 激活函数及其导函数要尽可能的简单,有利于提高网络计算效率。
- 激活函数的导函数的值域要在一个合适的区间内,不能太大也不能太小,否则会影响训练的效率和稳定性。
4.1.1 Sigmoid型激活函数
Sigmoid型函数是指一类S型曲线函数,为两端饱和函数。常用的 Sigmoid型函数有 Logistic函数和 Tanh函数。
对于函数 f(x),若 x → -∞时,其导数 f ′(x) → 0,则称其为左饱和。若 x → +∞时,其导数 f ′(x) → 0,则称其为右饱和。当同时满足左、右饱和时,就称为两端饱和。
Logistic函数定义为
Logistic函数可以看成是一个“挤压”函数,把一个实数域的输入“挤压”到(0, 1)。
Tanh 函数 定义为
Tanh函数可以看作是放大并平移的 Logistic函数,其值域是 (-1, 1)。
Tanh 函数的输出是零中心化的(Zero-Centered),而 Logistic函数的输出恒大于 0。
非零中心化的输出会使得其后一层的神经元的输入发生偏置偏移(Bias Shift),并进一步使得梯度下降的收敛速度变慢。
Logistc求导过程:
令
则
分别求导
化简
Tanh的求导过程:
令
化简
因为
代回原式
4.1.1.1 Hard-Logistic 和 Hard-Tanh 函数
Logistic函数和 Tanh函数都是 Sigmoid型函数,具有饱和性,但是计算开销较大。因为这两个函数都是在中间(0附近)近似线性,两端饱和。因此,这两个函数可以通过分段函数来近似。
4.1.2 修正线性单元
修正线性单元(Rectified Linear Unit, ReLU)是目前深层神经网络中经常使用的激活函数。ReLU实际上是一个斜坡(ramp)函数,定义为
ReLU零点导数可以人为规定,比如tensorflow中规定为0,也可以用其他函数来近似,比如取0.5。
优点:
- 采用 ReLU 的神经元只需要进行加、乘和比较的操作,计算上更加高效。
- ReLU函数被认为有生物上的解释性,比如单侧抑制、 宽兴奋边界(即兴奋程度也可以非常高)。在生物神经网络中,同时处于兴奋状态的神经元非常稀疏。人脑中在同一时刻大概只有 1 ∼ 4%的神经元处于活跃状态。 Sigmoid 型激活函数会导致一个非稀疏的神经网络,而 ReLU却具有很好的稀疏性,大约 50%的神经元会处于激活状态。
- 在优化方面,相比于 Sigmoid型函数的两端饱和, ReLU函数为左饱和函数,且在 x > 0时导数为 1,在一定程度上缓解了神经网络的梯度消失问题,加速梯度下降的收敛速度。
缺点 :
- ReLU函数的输出是非零中心化的,给后一层的神经网络引入偏置偏移,会影响梯度下降的效率。
- 此外, ReLU 神经元在训练时比较容易“死亡”。在训练时,如果参数在一次不恰当的更新后,第一个隐藏层中的某个 ReLU 神经元在所有的训练数据上都不能被激活,那么这个神经元自身参数的梯度永远都会是0,在以后的训练过程中永远不能被激活。这种现象称为死亡 ReLU 问题(Dying ReLU Problem),并且也有可能会发生在其它隐藏层。
4.1.2.1 带泄露的 ReLU
带泄露的 ReLU(Leaky ReLU)在输入 x < 0时,保持一个很小的梯度。这样当神经元非激活时也能有一个非零的梯度可以更新参数,避免永远不能被激活。
其中 是一个很小的常数,比如 0.01。当 时,带泄露的 ReLU也可以写为
相当于是一个比较简单的 maxout单元。
4.1.2.2 带参数的 ReLU
带参数的 ReLU(Parametric ReLU, PReLU)引入一个可学习的参数,不同神经元可以有不同的参数。对于第 i 个神经元,其 PReLU 的定义为
如果 ,那么PReLU就退化为 ReLU。如果 为一个很小的常数,则 PReLU可以看作带泄露的 ReLU。
4.1.2.3 ELU
指数线性单元(Exponential Linear Unit, ELU)是一个近似的零中心化的非线性函数,其定义为
其中 是一个超参数,决定 x ≤ 0时的饱和曲线,并调整输出均值在 0附近。
4.1.2.4 Softplus 函数
Softplus 函数可以看作是ReLU函数的平滑版本,其定义为
Softplus函数其导数刚好是 Logistic函数。Softplus函数虽然也有具有单侧抑制、宽兴奋边界的特性,却没有稀疏激活性。
4.1.3 Swish函数
Swish 函数是一种自门控(Self-Gated)激活函数,定义为
其中 为 Logistic函数, β 为可学习的参数或一个固定超参数。
当 可以看作是一种软性的门控机制。当 接近于 1时,门处于“开”状态,激活函数的输出近似于x本身;当 接近于 0时,门处于“关”状态,激活函数的输出近似于 0。
当 β = 0时, Swish函数变成线性函数 x/2。
当 β = 1时, Swish函数在 x > 0时近似线性,在 x < 0时近似饱和,同时具有一定的非单调性。
当 β → +∞时, 趋向于离散的 0-1函数, Swish函数近似为ReLU函数。
因此,Swish函数可以看作是线性函数和 ReLU函数之间的非线性插值函数,其程度由参数 β 控制。
4.1.4 高斯误差线性单元
高斯误差线性单元(Gaussian Error Linear Unit, GELU)和 Swish 函数比较类似,也是一种通过门控机制来调整其输出值的激活函数。
其中 P(X ≤ x)是高斯分布 N(µ, σ2)的累积分布函数,其中 µ, σ 为超参数,一般设 µ = 0, σ = 1即可。由于高斯分布的累积分布函数为 S型函数,因此 GELU可以用 Tanh函数或 Logistic函数来近似,
当使用 Logistic函数来近似时,GELU相当于一种特殊的 Swish函数。
4.1.5 Maxout单元
Maxout单元也是一种分段线性函数。Sigmoid型函数、 ReLU等激活函数的输入是神经元的净输入 z,是一个标量。而 Maxout单元的输入是上一层神经元的全部原始输出,是一个向量 。
每个 Maxout单元有K 个权重向量 和偏置。对于输入 x,可以得到 K 个净输入。
其中 为第 k 个权重向量。
Maxout单元的非线性函数定义为
Maxout单元是整体学习输入到输出之间的非线性映射关系。
Maxout激活函数可以看作任意凸函数的分段线性近似,并且在有限的点上是不可微的。
4.2 网络结构
4.2.1 前馈网络
前馈网络中各个神经元按接受信息的先后分为不同的组。每一组可以看作一个神经层。
每一层中的神经元接受前一层神经元的输出,并输出到下一层神经元。整个网络中的信息是朝一个方向传播,没有反向的信息传播,可以用一个有向无环路图表示。
前馈网络可以看作一个函数,通过简单非线性函数的多次复合,实现输入空间到输出空间的复杂映射。这种网络结构简单,易于实现。
4.2.2 记忆网络
记忆网络,也称为反馈网络,网络中的神经元不但可以接收其它神经元的信息,也可以接收自己的历史信息。和前馈网络相比,记忆网络中的神经元具有记忆功能,在不同的时刻具有不同的状态。记忆神经网络中的信息传播可以是单向或双向传递,因此可用一个有向循环图或无向图来表示。记忆网络包括循环神经网络,Hopfield网络、玻尔兹曼机等。
记忆网络可以看作一个程序,具有更强的计算和记忆能力。
为了增强记忆网络的记忆容量,可以引入外部记忆单元和读写机制,用来保存一些网络的中间状态,称为记忆增强神经网络(Memory-Augmented NeuralNetwork, MANN) ,比如神经图灵机和记忆网络等。
4.2.3 图网络
前馈网络和记忆网络的输入都可以表示为向量或向量序列。但实际应用中很多数据是图结构的数据,比如知识图谱、社交网络、分子(Molecular )网络等。前馈网络和反馈网络很难处理图结构的数据。
图网络是定义在图结构数据上的神经网络。图中每个节点都由一个或一组神经元构成。节点之间的连接可以是有向的,也可以是无向的。每个节点可以收到来自相邻节点或自身的信息。
图网络是前馈网络和记忆网络的泛化,包含很多不同的实现方式,比如 图卷积网络(Graph Convolutional Network,GCN)、图注意力网络(Graph Attention Network, GAT)、消息传递网络(Message Passing Neural Network,MPNN)等。
4.3 前馈神经网络
第0层叫输入层,最后一层叫输出层,其它中间层叫做隐藏层。整个网络中无反馈,信号从输入层向输出层单向传播,可用一个有向无环图表示。
- :表示神经网络的层数;
- :表示第 l 层神经元的个数;
- :表示 l 层神经元的激活函数;
- :表示 l - 1层到第 l 层的权重矩阵;
- :表示 l - 1层到第 l 层的偏置;
- :表示 l 层神经元的净输入(净活性值);
- :表示 l 层神经元的输出(活性值)。
前馈神经网络通过下面公式进行信息传播,
4.3.1 通用近似定理
根据通用近似定理,对于具有线性输出层和至少一个使用“挤压”性质的激活函数的隐藏层组成的前馈神经网络,只要其隐藏层神经元的数量足够,它可以以任意的精度来近似任何从一个定义在实数空间 Rd 中的有界闭集函数。
通用近似定理只是说明了神经网络的计算能力可以去近似一个给定的连续函数,但并没有给出如何找到这样一个网络,以及是否是最优的。
4.3.2 应用到机器学习
根据通用近似定理,神经网络在某种程度上可以作为一个“万能”函数来使用,可以用来进行复杂的特征转换,或逼近一个复杂的条件分布。
在机器学习中,输入样本的特征对分类器的影响很大。以监督学习为例,好的特征可以极大提高分类器的性能。因此,要取得好的分类效果,需要样本的原始特征向量 x转换到更有效的特征向量 φ(x),这个过程叫做特征抽取。
4.3.3 参数学习
梯度下降法需要计算损失函数对参数的偏导数,如果通过链式法则逐一对每个参数进行求偏导比较低效。在神经网络的训练中经常使用反向传播算法来高效地计算梯度。
4.4 反向传播算法
假设采用随机梯度下降进行神经网络参数学习,给定一个样本 (x, y),将其输入到神经网络模型中,得到网络输出为 。假设损失函数为 ,要进行参数学习就需要计算损失函数关于每个参数的导数。
4.5 自动梯度计算
实际上,参数的梯度可以让计算机来自动计算。目前,几乎所有的主流深度学习框架都包含了自动梯度计算的功能,即我们可以只考虑网络结构并用代码实现,其梯度可以自动进行计算,无需人工干预,这样可以大幅提高开发效率。
4.5.1 数值微分
数值微分(Numerical Differentiation)是用数值方法来计算函数 f(x) 的导数。函数 f(x)的点 x的导数定义为
通过上述定义来直接计算函数 f(x) 的梯度。数值微分方法非常容易实现,但找到一个合适的扰动 ∆x却十分困难。如果 ∆x过小,会引起数值计算问题,比如舍入误差;如果 ∆x过大,会增加截断误差,使得导数计算不准确。因此,数值微分的实用性比较差。
在实际应用,经常使用下面公式来计算梯度,可以减少截断误差。
数值微分的另外一个问题是计算复杂度。假设参数数量为 n,则每个参数都需要单独施加扰动,并计算梯度。假设每次正向传播的计算复杂度为 O(n),则计算数值微分的总体时间复杂度为 O(n2)。
4.5.2 符号微分
符号微分(Symbolic Differentiation)是一种基于符号计算的自动求导方法。符号计算,也叫代数计算,是指用计算机来处理带有变量的数学表达式。
这里的变量看作是符号(Symbols),一般不需要代入具体的值。符号计算的输入和输出都是数学表达式,一般包括对数学表达式的化简、因式分解、微分、积分、解代数方程、求解常微分方程等运算。
符号计算一般来讲是对输入的表达式,通过迭代或递归使用一些事先定义的规则进行转换。当转换结果不能再继续使用变换规则时,便停止计算。
符号微分可以在编译时就计算梯度的数学表示,并进一步利用符号计算方法进行优化。此外,符号计算的一个优点是符号计算和平台无关,可以在 CPU或GPU上运行。
符号微分也有一些不足之处。一是编译时间较长,特别是对于循环,需要很长时间进行编译;二是为了进行符号微分,一般需要设计一种专门的语言来表示数学表达式,并且要对变量(符号)进行预先声明;三是很难对程序进行调试。
4.5.3 自动微分
自动微分(Automatic Differentiation, AD)是一种可以对一个(程序)函数进行计算导数的方法。符号微分的处理对象是数学表达式,而自动微分的处理对象是一个函数或一段程序。
自动微分的基本原理是所有的数值计算可以分解为一些基本操作,包含+, -, ×, /和一些初等函数 exp, log, sin, cos等,然后利用链式法则来自动计算一个复合函数的梯度。
为了简单起见,这里以一个神经网络中常见的复合函数的例子来说明自动微分的过程。令复合函数为
首先,我们将复合函数分解为一系列的基本操作,并构成一个计算图(Computational Graph)。
计算图是数学运算的图形化表示。计算图中的每个非叶子节点表示一个基本操作,每个叶子节点为一个输入变量或常量。下面给出了当 时复合函数f(x; w, b)的计算图,其中连边上的红色数字表示前向计算时复合函数中每个变量的实际取值。
从计算图上可以看出,复合函数由 6 个基本函数 组成。每个基本函数的导数都十分简单,可以通过规则来实现。
整个复合函数 关于参数 w 和 b 的导数可以通过计算图上的节点与参数 w 和 b之间路径上所有的导数连乘来得到,即
如果函数和参数之间有多条路径,可以将这多条路径上的导数再进行相加,得到最终的梯度。
按照计算导数的顺序,自动微分可以分为两种模式:前向模式和反向模式。
前向模式 前向模式是按计算图中计算方向的相同方向来递归地计算梯度。 当 时,前向模式的累积计算顺序如下:
反向模式 反向模式是按计算图中计算方向的相反方向来递归地计算梯度。 当 时,反向模式的累积计算顺序如下:
前向模式和反向模式可以看作是应用链式法则的两种梯度累积方式。从反向模式的计算顺序可以看出,反向模式和反向传播的计算梯度的方式相同。
符号微分和自动微分
符号微分和自动微分都利用计算图和链式法则来自动求解导数。
符号微分在编译阶段先构造一个复合函数的计算图,通过符号计算得到导数的表达式,还可以对导数表达式进行优化,在程序运行阶段才代入变量的具体数值进行计算导数。
自动微分则无需事先编译,在程序运行阶段边计算边记录计算图,计算图上的局部梯度都直接代入数值进行计算,然后用前向或反向模式来计算最终的梯度。
静态计算图和动态计算图
静态计算图是在编译时构建计算图,计算图构建好之后在程序运行时不能改变。
动态计算图是在程序运行时动态构建。
两种构建方式各有优缺点。
静态计算图在构建时可以进行优化,并行能力强,但灵活性比较差。
动态计算图则不容易优化,当不同输入的网络结构不一致时,难以并行计算,但是灵活性比较高。
在目前深度学习框架里, Theano 和 Tensorflow 采用的是静态计算图,而DyNet,Chainer和 PyTorch采用的是动态计算图。
4.6 优化问题
4.6.1 非凸优化问题
神经网络的优化问题是一个非凸优化问题。
4.6.2 梯度消失问题
由于 Sigmoid 型函数的饱和性,饱和区的导数更是接近于 0。这样,误差经过每一层传递都会不断衰减。当网络层数很深时,梯度就会不停的衰减,甚至消失,使得整个网络很难训练。这就是所谓的梯度消失问题(Vanishing Gradient Problem),也称为梯度弥散问题。
在深层神经网络中,减轻梯度消失问题的方法有很多种。一种简单有效的方式是使用导数比较大的激活函数,比如 ReLU等。