https://developers.google.cn/machine-learning/crash-course/regularization-for-simplicity/l2-regularization
某个模型的训练损失逐渐减少,但验证损失最终增加。换言之,该泛化曲线显示该模型与训练集中的数据过拟合。根据奥卡姆剃刀定律,或许我们可以通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化。
L₂ 正则化
Lambda
经验风险最小化
结构风险最小化
现在,我们的训练优化算法是一个由两项内容组成的函数:
一个是损失项,用于衡量模型与数据的拟合度,
一个是正则化项,用于衡量模型复杂度。