损失函数、代价函数、目标函数

1 基本概念

损失函数（loss function）：计算的是一个样本的误差。它是用来估量你模型的预测值 f(x)与真实值 Y的不一致程度，通常用 L(Y,f(x))来表示。

代价函数（cost function）：是整个训练集上所有样本误差的平均。本质上看，和损失函数是同一个东西。

目标函数：代价函数 + 正则化项。

三者具体区别与联系

损失函数越小，模型的鲁棒性就越好。

目标函数包括了经验风险项和结构风险项（正则项），通常如下所示：

目标函数通用表达式

其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面的 Φ 是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的是找到使目标函数最小时的θ值。

2. 常用损失函数

常见的损失误差有五种。

1. 铰链损失（Hinge Loss）：主要用于支持向量机（SVM）中；

2. 互熵（交叉熵）损失（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回归与Softmax 分类中；

3. 平方损失（Square Loss）：主要是最小二乘法（OLS）中；

4. 指数损失（Exponential Loss）：主要用于Adaboost 集成学习算法中；

5. 其他损失（如0-1损失，绝对值损失）

2.1 铰链损失（Hinge loss）

Hinge loss 的叫法来源于其损失函数的图形，通用的函数表达式为：

Hinge loss通用函数表达式

表示如果被正确分类，损失是0，否则损失就是 1−mi(w) 。

参考SVM的具体推导过程

在机器学习中，Hing 可以用来解间距最大化的问题，最有代表性的就是SVM 问题，最初的SVM 优化函数如下：

将约束项进行变形，则为：

则损失函数可以进一步写为：

因此， SVM 的损失函数可以看作是 L2-Norm 和 Hinge Loss 之和。

2.2 互熵（交叉熵）损失（Cross Entropy Loss，Softmax Loss）

有些人可能觉得逻辑回归的损失函数就是平方损失，其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到，而逻辑回归得到的并不是平方损失。

在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值等等。而逻辑回归并没有求似然函数的极值，而是把极大化当做是一种思想，进而推导出它的经验风险函数为：最小化负似然函数（Negative Likelihood (LL)）（即maxF(y,f(x))→min−F(y,f(x)))。从损失函数的视角来看，它就成了Softmax 损失函数了。

参考逻辑回归具体推导过程

参考Softmax 回归推导具体过程

互熵损失函数的通用的标准形式：

互熵损失函数的通用的标准形式

取对数是为了方便计算极大似然估计，因为在MLE中，直接求导比较困难，所以通常都是先取对数再求导找极值点。损失函数L(Y,P(Y|X)) 表达的是样本X 在分类Y的情况下，使概率P(Y|X)达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。因为log函数是单调递增的，所以logP(Y|X)也会达到最大值，因此在前面加上负号之后，最大化P(Y|X)就等价于最小化LL了。

逻辑回归的P(Y=y|x)表达式如下（为了将类别标签y统一为1 和0 ）：

逻辑回归损失函数具体推导过程注意最后取负数

从上面的推导过程可以得出：互熵损失（Cross Entropy Loss，Softmax Loss）的本质是最大似然估计MLE。

2.3 平方损失（Square Loss）

最小二乘法是线性回归的一种，OLS将问题转化成了一个凸优化问题。在线性回归中，它假设样本和噪声都服从高斯分布（中心极限定理），最后通过极大似然估计（MLE）可以推导出最小二乘式子。最小二乘的基本原则是：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。

平方损失（Square loss）通用的标准形式如下：

平方损失（Square loss）通用的标准形式

当样本个数为n时，此时的损失函数为：

Y−f(X) 表示残差，整个式子表示的是残差平方和，我们的目标就是最小化这个目标函数值，即最小化残差的平方和。

在实际应用中，我们使用均方差（MSE：mean square error）作为一项衡量指标，公式如下：

均方差MSE

参考线性回归推导过程

从上面的推导过程可以得出：平方损失（Square Loss）的本质也是最大似然估计MLE。

面试中被问到的MSE和CE问题：

训练神经网络时，你经常用哪一个？

这是一个小坑，先要区分问题是分类还是回归！如果是回归问题，用MSE，如果是分类问题，一般用CE。

为什么呢？

因为MSE容易发生梯度消失问题，而CE消去了导致梯度错误消失的因子，则不会。

2.4 指数损失（Exponential Loss）

指数损失函数的通用标准形式是：

exp-loss，主要应用于 Boosting 算法中，在Adaboost 算法中，经过 m 次迭代后，可以得到 fm(x)：

Adaboost 每次迭代时的目的都是找到最小化下列式子的参数α和G：

易知，Adabooost 的目标式就是指数损失，在给定n个样本的情况下，Adaboost 的损失函数为：

关于Adaboost的详细推导介绍，可以参考Wikipedia：AdaBoost或者李航《统计学习方法》P145。

2.5 其他损失

0-1 损失函数

绝对值损失函数

上述几种损失函数比较的可视化图像如下：

损失函数比较

3 Hinge loss（SVM）与 Softmax loss（Softmax）

SVM 和 Softmax 分类器是最常用的两个分类器。

SVM将输出f(xi,W) 作为每个分类的评分；

与SVM 不同，Softmax 分类器可以理解为逻辑回归分类器面对多个分类的一般话归纳。其输出为归一化的分类概率，更加直观，且可以从概率上解释。

在Softmax分类器中，函数映射f(xi,W)保持不变，但将这些评分值看做每个分类未归一化的对数概率，且将铰链损失（hinge loss）替换为交叉熵损失(cross-entropy loss)，公式如下:

或等价的：

等价变形

fj表示分类评分向量f中的第i 个元素，和SVM一样，整个数据集的损失值是数据集中所有样本数据的损失值Li的均值和正则化损失之和。

概率论解释:

解释为给定数据xi和W参数，分配给正确分类标签yi的归一化概率。

实际操作注意事项——数值稳定: 编程实现softmax函数计算的时候,中间项efyi和 ∑jefj因为存在指数函数，所以数值可能非常大，除以大数值可能导致数值计算的不稳定，所以得学会归一化技巧。若在公式的分子和分母同时乘以一个常数C，并把它变换到求和之中,就能得到一个等价公式:

C的值可自由选择，不会影响计算结果，通过这个技巧可以提高计算中的数值稳定性。通常将C设为：

归一化技巧提高计算中的数值稳定性

该技巧就是将向量f中的数值进行平移,使得最大值为0。

准确地说，SVM分类器使用的是铰链损失（hinge loss），有时候又被称为最大边界损失（max-margin loss）。Softmax分类器使用的是交叉熵损失（corss-entropy loss）。Softmax分类器的命名是从softmax函数那里得来的，Softmax函数将原始分类评分变成正的归一化数值，所有数值和为1，这样处理后交叉熵损失才能应用。

举例：图像识别

针对给出的图像，SVM分类器可能给你的是一个[−2.85, 0.86, 0.28]对应分类“猫”，“狗”，“船”，而softmax分类器可以计算出这三个标签的”可能性“是[0.016, 0.631, 0.353]，这就让你能看出对于不同分类准确性的把握。

这里Hinge Loss计算公式为：

Hinge Loss

这里 Δ是一个阈值，表示即使误分类，但是没有达到阈值，也不存在损失。上面的公式把错误类别 (j≠yi) 都遍历一遍，求值加和。

设 xi 的正确类别是”船”，阈值 Δ=1 ，则对应的Hinge loss 为：

下图是对Δ的理解，蓝色表示正确的类别，Δ表示一个安全范围，就算是有其他的得分，只要没有到达红色的Δ范围内,，对损失函数都没有影响。这就保证了SVM 算法的解的稀疏性。

而Softmax 损失则是对向量 fyi 指数正规化得到概率，再求对数即可。

3.1 SVM 和 LR的联系与区别（扩充）

联系：

1、SVM和LR都可以处理分类问题，且一般都用于处理线性二分类问题，在改进后都可以处理多分类问题。

2、两个方法都可以增加不同的正则化项，如L1、L2等。所以在很多实验中，两种算法的结果是很接近的。

区别：

1、从目标函数来看，区别在于逻辑回归采用的是 cross entropyloss，SVM采用的是hinge loss，这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。

2、SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归是通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。

3、逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后，分类只需要计算与少数几个支持向量的距离，这个在进行复杂核函数计算时优势很明显，能够大大简化模型和计算。

4 总结

机器学习作为一种优化方法，学习目标就是找到优化的目标函数——损失函数和正则项的组合；有了目标函数的“正确的打开方式”，才能通过合适的机器学习算法求解优化。

不同机器学习方法的损失函数有差异，合理理解各种损失优化函数的的特点更有利于我们对相关算法的理解。

5 参考

机器学习中的目标函数、损失函数、代价函数有什么区别 ?https://www.zhihu.com/question/52398145/answer/209358209

机器学习中的损失函数（着重比较：hinge loss vs softmax loss）https://blog.csdn.net/u010976453/article/details/78488279

最后编辑于：2018.11.01 17:40:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342

损失函数 、代价函数、目标函数