本文里所用的反向传播算法公式为Coursera里Andrew Ng所用的无正则化公式。
这张图很多人都非常熟悉。通过输入x1,x2,x3,经过两个隐层的加权后,在输出层得到输出。神经网络的学习过程分为两个:正向传播与反向传播。
各个输入值通过正向传播得到对应的输出值,计算Cost后,通过反向传播,将Cost分摊到各个单元θ,重新调整加权值后,令输出结果逐步接近全局最优解/局部最优解。BP算法看起来复杂,实际上便是将Gradient discent运用在神经网络上,利用反向传播快速求得误差对每个神经单元的偏微分。数学推理如下(推导中所有符号意义沿用自Andrew Ng的Coursera课程):