L0范数和L1范数
L0范数是指向量中非零元素的个数,如果用L0规则化一个参数矩阵W,就是希望W中大部分元素为0,实现稀疏
L1范数是指向量中各个元素的绝对值之和
L2范数是指向量各元素的平方和然后开方
L1比L0更易求解
L1是L0的最优凸近似,LASSO 1996, 通过L1范数来近似L0范数,是求取稀疏解的重要技术
L1: ||x||1 = Σ|x|
L2: ||x||2 = sqrt(Σx^2)
L1可以实现参数稀疏,L2不行
L2有助于处理condition number不好的情况,矩阵求解困难
ill-condition: Ax=b 如果A,b 发生轻微改变,就使x的解发生很大变化,那么这个方程组系统就是ill-condition
L1,L2下降速度: L1是直线下降,L2是曲线下降
总结:L1范式趋向于产生较少特征,在特征选择时很有用;L2会选择更多特征,但对应权值会接近0