
@江北衫真的很强 准确的说只有函数是凸的,可导的,才能用GD
深入浅出--梯度下降法及其实现梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而...
@搁浅_5015 这是因为选取的均方误差函数求导后实现了参数的分离,简单理解参数只有加关系,这样转变为向量之后可以通过矩阵乘法(向量内积)来表示,是最理想状态,不具有普遍性,具体问题具体对待。
深入浅出--梯度下降法及其实现梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而...
@bigbigbird 第一,文中选用均方误差是因为实现的是一个线性拟合问题,可以理解均方误差越小,整体拟合的波动越小,也就越好。第二,均方误差求导容易,实现快。第三,损失函数的选取由具体的情况而定,理论上只要是凸函数,即可导,能够使用GD就都可以作为损失函数。对于回归问题大部分采用mse即均方误差,而对于概率模型,一般使用极大似然法处理对数损失函数,典型代表为逻辑回归。其他情况可考虑交叉熵等具体算法的经典损失函数。
深入浅出--梯度下降法及其实现梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading 本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而...