假设我们知道网络输出和实际输出之间的区别,我们怎样调整网络参数使他们接近
一种代价函数形式
一种weight decay代价函数形式
参数如何初始化实际上是一个problem,后面会有相应讨论,这里简单的以高斯分布讨论。
修正参数的原理,只要间隔取得小,就能收敛。虽然这是非凸函数,会收敛到局部最小值,但是事实证明结果是好的。
所以这个梯度的求法就很关键了,这里上BP(反向传播算法)
重点来了——BP计算步骤##
1.先前向传播,this is easy
2.然后计算最后一层整体的偏差量
3.从后往前逐层计算前一层的偏差量
4.最后由每一层的偏差量计算W与b的梯度,此即为更新时需要用到的值
Some trick
如何保证计算出的梯度是正确的——梯度检查