深度学习中的损失函数总结已经Center Loss函数笔记

图片分类里的Center Loss
目标函数,损失函数,代价函数
损失函数度量的是预测值与真实值之间的差异.损失函数通常写做L(y,y).y代表了预测值,y代表了真实值.目标函数可以看做是优化目标,优化模型的最后目标就是使得这个目标函数最大或者最小.代价函数类似于目标函数.区别:目标函数(代价函数)可以包含一些约束条件如正则化项.
一般不做严格区分.下面所言损失函数均不包含正则项.
常见的损失函数
以keras文档列出的几个为例keras-loss**
mse(mean_squared_error):均方误差损失.K.mean(K.square(y_pred-y_true),axis=-1)

mae(mean_absolute_error):平均绝对值误差损失.K.mean(K.abs(y_pred-y_true),axis=-1)

mape(mean_absolute_percentage_error):平均绝对百分误差.
K.abs((y_true - y_pred) / K.clip(K.abs(y_true),K.epsilon(),None))#clip(x,min,max)防止除0错误

msle(mean_squared_logarithmic_error):均方对数损失(mse的改进).

mslefirst_log = K.log(K.clip(y_pred, K.epsilon(), None) + 1.)second_log = K.log(K.clip(y_true, K.epsilon(), None) + 1.)loss= K.mean(K.square(first_log - second_log), axis=-1)#msefirst_log = K.clip(y_pred, K.epsilon(), None) + 1.second_log = K.clip(y_true, K.epsilon(), None) + 1.loss= K.mean(K.square(first_log - second_log), axis=-1)

msle相比与mse的改进:如果想要预测的值范围很大,mse会受到一些大的值的引导,即使小的值预测准也不行.假设如: y_true:[1,2,3,100] y_1:[1,2,3,110] y_2:[2,3,4,100] mse计算结果(y_1:100,y_2:3)会认为y_2优于y_1. msle计算结果(有_1:0.047,0.27)通过预先将所有值取log缓解了这一情况,会认为y_1优于y_2.这比较合理.

code**

logcosh烫烫烫.回归
def cosh(x): return (K.exp(x) + K.exp(-x)) / 2K.mean(K.log(cosh(y_pred - y_true)), axis=-1)

这个函数没见人用过,按照公式作图如下:

大致可以看出来如果y_pred与y_true差异越小则值越小.
kullback_leiber_divergence:KL散度.两个概率分布P和Q差别的非对称性的度量. 典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。y_true = K.clip(y_true, K.epsilon(), 1)y_pred = K.clip(y_pred, K.epsilon(), 1)K.sum(y_true * K.log(y_true / y_pred), axis=-1)

一种解释:KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。(熵,交叉熵,)举例:假设现在有两个分布p和q,p为真实,q为模型预测的熵的本质是信息量度量:按照真实分布p来衡量识别一个样本所需要的平均编码长度:按照错误分布q来表示来自真实分布p的平均编码长度(交叉熵):举例:4个字母,真实分布p=[0.5,0.5,0,0],q=[0.25,0.25,0.25,0.25],计算得到H(p)为1.H(p,q)为2.由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为KL散度.KL散度wikiKL散度zhihu**
categorical_crossentropy:多类的对数损失.一种解释:softmax公式:logistic regression的目标函数是根据最大似然来做的.也就是假设x属于类y,预测出概率为oy,那么需要最大化oy.softmax_loss如下:下面是二类分类交叉熵公式:数值稳定性问题

Center Loss损失函数
开始正题.以mnist数据集为例.(手写数字,28*28图像,10分类问题)
categorical crossentropy(softmax loss)的问题通常会使用softmax loss多分类损失函数.使用CNN网络(mnist分类容易达到较高的准确度,为了实验效果,网络设计的故意差了点,如没有使用BN,relu,dropout,L2等trick),选择在倒数第二层全连接层输出节点为2个,称为是特征,而后将这2个节点接到最后的的10节点全连接层.正常的训练过程,到达较高准确度后将每个数据的倒数第二层的特征打印出来.如下图:
缺点:
从聚类角度看,提取的特征并不好.很多情况下类内间距甚至要大于类间间距.我们期望特征不仅可分，而且要求差异大，特征学习需要保证提取的特征有识别度。
占据的面积有点大.通常情况下,我们希望每一类只占很小一部分.因为手写字符很多啊,这些数字就占了这么大地方,如果新来了英文字母呢…也就是我们期望模型能识别出在训练数据的标签中没有的分类。特征学习需要保证提取的特征具有普适性.
softmax会使得模型过度自信,分类结果基本非1即0,上图里有些点在边界但是softmax认为已经可以了,根本没必要再修正.同时softmax这种特性使得基本上没有办法去设置诸如可信度等度量.(场景?)

原因?举例:最后一层全连接层输出V=[x1,x2,x3],真实标签是[1,0,0].那么假设V=[x1,x2,x3]是[3.1,3,3],那么softmax的公式使得其只需要V的模长增加倍数即可以降低loss损失.这太容易(只需要增大参数即可)使得网络往往就是这样做的.而不是我们通常想要的那样去努力降低x2,x3的相对于x1的值如[3.1,1,1]这样.这也是所以L2正则会缓解过拟合的一个原因.
解决办法:很多,如故意让softmax也去模拟下均匀分布输出而不仅仅是one_hot.这里只涉及其中一种也就是centerloss.
那么换一个损失函数吧.均方误差损失?如下图:不但准确度下降到30%,而且互相直接还有了覆盖交集.有趣的地方:
1和其他数字很明显的分开了.
2,4,5,8,9这几个炸了根本分不开.

在上述的几个损失函数上,softmax工作的是最好的了.
Center Loss针对softmax表现出的问题针对性解决.-→类内间距太大了.
对每一个类都维护一个类中心c,而后在特征层如果该样本里类中心的特征太远就要惩罚.也就是所谓的centerloss.类中心c:每一个样本的特征需要通过一个好的网络到达特征层获得,这样计算完后所有样本的特征的平均值为类中心c,而好的网络需要是在有类中心加入的情况下才能得到…

没法直接获得c,所以将其放到网络里自己生成,在每一个batch里更新center.即随机初始化center,而后每一个batch里计算当前数据与center的距离,而后将这个梯度形式的距离加到center上.类似于参数修正.同样的类似于梯度下降法,这里再增加一个scale度量a,使得center不会抖动.

实验表明只使用centerloss效果很一般,所以一般是将centerloss与softmax结合起来,引入参数lambda.总体结构如下:4.算法过程

5.实验结果准确度提高约0.6%.
总结
一种新的loss函数,看起来效果不错,而且也更加符合认知,生成的模型鲁棒性可能更好.
本质是度量学习,经常应用在分类领域,原理简单,计算复杂度不大,经常能提升效果.
有点使用空间换取时间的意思.
属于一个trick.不一定适合所有场景.一般来说,如果同一类样本很类似如mnist手写数字,人脸数据,那么centerloss往往能够带来效果提升.而如果本身同一类样本就差异很大,如cifar100,那么则不一定.也可以理解成一个人的一堆脸取平均值仍然是他的脸,而一堆不同的狗取平均值则可能难以认出是什么.
参数设置:a一般取0.5,lambda则0.1-0.0001之间不等,需要实验调参.
参考论文 A Discriminative Feature Learning Approach for Deep Face Recognition

最后编辑于：2017.12.11 02:15:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,468评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,620评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,427评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,160评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,197评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,334评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,775评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,444评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,628评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,459评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,508评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,210评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,767评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,850评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,076评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,627评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,196评论 2赞 341

深度学习中的损失函数总结已经Center Loss函数笔记

推荐阅读更多精彩内容