损失函数(1):交叉熵

1、自信息
  定义:由克劳德·香农提出,是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。用信息的单位表示,例如bit(以2为底)、nat(以e为底)或者hart(以10为底),使用哪个单位取决于在计算中使用的对数的底。(信息的编码长度)
  假设一个随机变量X取值为x的几率为p(x),则它的自信息公式为:[图片上传失败...(image-3c2241-1527671842491)]&space;=&space;log&space;(\frac{1}{P(x)}))
  特性:可加性
  

2、熵
  定义:在信息论中,熵(entropy)是接收的每条消息中包含的信息的平均量。
  假设随机变量X值域为{x1, ..., xn},该随机变量X的熵值定义如下:[图片上传失败...(image-da1d21-1527671842491)]&space;=&space;\mathrm{E}[\mathrm{I}(X)]&space;=&space;\mathrm{E}[-\ln(\mathrm{P}(X))])
  其中,P为X的概率质量函数,E为期望函数,I(X)为X的自信息。当取自有限的样本时,熵的计算公式为:[图片上传失败...(image-26338d-1527671842491)]=\sum&space;{{i}}{{\mathrm&space;{P}}(x{i}),{\mathrm&space;{I}}(x_{i})}=-\sum&space;{{i}}{{\mathrm&space;{P}}(x{i})\log&space;{b}{\mathrm&space;{P}}(x{i})})
  熵的特性:连续性、对称性、极值性和可加性
  

3、条件熵
  定义:描述了在已知第二个随机变量X的值的前提下,随机变量Y的信息熵还有多少。

  如果H(Y|X=x)为变量Y在变量X取特定值x条件下的熵,那么H(Y|X)就是H(Y|X=x)在X取遍所有可能的x后取平均的结果。给定随机变量X和Y,在给定X条件下Y的条件熵定义为:

  条件熵的链式法则:

  条件熵的贝叶斯规则:H(Y|X) = H(X|Y) - H(X) + H(Y)
  

4、互信息
  

5、联合熵
  定义:是一集变量之间不确定性的衡量手段
  两个变量X和Y的联合信息熵公式为:[图片上传失败...(image-1afda5-1527671842491)]=-\sum&space;{{x}}\sum&space;{{y}}P(x,y)\log&space;{2}[P(x,y)]!)
  对于两个以上的变量X1,X2, ... , Xn,该式的一般形式为:[图片上传失败...(image-527b62-1527671842491)]=-\sum&space;
{{x_{1}}}...\sum&space;{{x{n}}}P(x_{1},...,x_{n})\log&space;{2}[P(x{1},...,x_{n})]!)
  特点:大于每个独立的熵;少于独立熵的和
  与条件熵的关系:[图片上传失败...(image-fd5c0a-1527671842491)]=\mathrm{H}&space;(X,Y)-\mathrm{H}&space;(Y),)
  与互信息的关系:[图片上传失败...(image-5003ba-1527671842491)]=\mathrm{H}&space;(X)+\mathrm{H}&space;(Y)-\mathrm{H}&space;(X,Y),)
  

6、相对熵(KL散度,KL距离,Kullback–Leibler divergence)
  定义:是两个概率分布P和Q差别的非对称性度量。是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外位元数(额外所需的编码长度)。典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布或者P的近似分布。

  对于离散随机变量,其概率分布P到分布Q的KL散度为:

  等价于:

  也可以写成:

  即按概率P求P和Q的对数差的平均值P * (I(Q) - I(P)),其中P*I(Q)就是交叉熵。
  特点:非负、不对称
  非负的证明:吉布斯不等式???
  

7、交叉熵:
  定义:基于相同时间测度的两个概率分布P和Q的交叉熵是指,当基于一个“非自然”(相对于“真实分布”P而言)的概率分布Q进行编码时,在时间集合中唯一标识一个事件所需要的平均比特数(使用非真实分布Q所指定的策略消除系统不确定性所需要付出的努力大小)。
  基于概率分布P和Q的交叉熵定义为:



  概率分布是离散时:

  概率分布是连续时:

  再解释:交叉熵可以看做每个信息片段在错误分布Q下的期望编码位长度,而信息实际分布为P。这就是期望Ep是基于P而不是Q的原因。
  交叉熵与KL散度的关系:交叉熵 = KL散度 + 熵,因为熵是不变的,所以交叉熵和KL散度在特定环境下是等价的(比如最优化条件)。

  

8、代价函数:交叉熵
  KL散度可以用来估计模型分布和训练数据分布的差异,我们假设训练数据分布和真实分布一致,则通过最小化KL散度可以使得模型分布于训练分布尽可能近似,同时也与真实数据尽可能相似。训练数据的分布是已知的,所以训练数据的熵也是已知,那么最小化KL散度等价于最小化交叉熵,所以通过最小化交叉熵可以训练模型。

9、朴素贝叶斯中的应用
  

10、神经网络中的应用
  

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,529评论 5 475
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,015评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,409评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,385评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,387评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,466评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,880评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,528评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,727评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,528评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,602评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,302评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,873评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,890评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,132评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,777评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,310评论 2 342

推荐阅读更多精彩内容