深度学习（三）：概率与信息论基础

版权声明:本文为博主原创文章，转载请注明出处，商业转载请联系作者(huxingfei097@163.com)，谢谢合作！

基础概念：
逻辑：
逻辑可以在给定某些命题是真或假的假设下，判断另外一些命题是真还是假。
概率：
概率可以在给定一些命题的似然后，计算其他命题为真的似然。
随机变量：
随机变量是指可以随机地取不同值的变量。通常用无格式字体中小写字母表示随机变量本身，用手写体中的小写字母来表示随机变量能够取到的值（注：markdown中暂未发现如何打出手写体字母，故以斜体代替），如，x₁和x₂都是随机变量 x 可能的取值。对于向量类型的变量 x，它的一个可能取值为 x。
随机变量可以是离散或者连续的。离散型随机变量拥有有限多个或者可数无限多的状态，注意：这些状态不一定要是整数值，可能只是被命名的状态而非数值，如，状态1，状态2，状态3...连续型随机变量伴随着实数值
概率分布：
概率分布用来描述随机变量或者一簇随机变量在每一个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量与概率质量函数：
离散型变量的概率分布可以用概率质量函数（PMF，也称作概率分布律）来描述。概率质量函数将随机变量能够取到的每个状态映射到随机变量取得该状态的概率，P(x)表示 x = x的概率，也可以写作P(x = x) 。通常使用～来表示一个随机变量所服从的分布：x ～ P(x)。
P(x = x,y = y)称为联合概率分布，表示 x = x 和 y = y 同时发生的概率，也可简写为 P(x,y)。
概率质量函数需要满足以下条件：
① P的定义域必须是变量 x 所有可能状态的集合。
② ∀ x∈x，0 ≤ P(x) ≤ 1
③ Σ_x∈xP(x) = 1，该性质称为归一化的
连续型随机变量与概率密度函数：
连续型随机变量的概率分布称之为概率密度函数(PDF)。概率密度函数 p 需满足以下条件：
① p 的定义域必须是变量 x 所有可能状态的集合。
② ∀ x∈x，p(x) ≥ 0。注意，并不要求 p(x) ≤ 1。
③ ∫ p(x)dx = 1。
求 x 落在某集合（区域）中的概率通过 p(x) 对该集合（区域）进行积分得到。
边缘概率：
通过一组变量的联合概率分布可以求出其中一个子集的概率分布。这种定义在自己上的概率分布被称为边缘概率分布。
对于离散型随机变量 x 和 y，已知 P(x,y)，常采用 求和法 来计算：
∀ x∈x，P(x = x) = Σ_y P(x = x,y = y)
对于连续型变量，使用 积分法 来计算边缘概率：
p(x) = ∫ p(x,y) dy
条件概率：
条件概率是在给定其他事件发生的情况下某个事件发生的概率。P(x = x| y = y)表示在x = x的情况下，y = y 发生的概率，计算公式如下：
P(x = x| y = y) = P(x = x，y = y)] / P(x = x)
条件概率只有在P(x = x)＞0 时有意义，不能计算永远不会发生的事件上的条件概率。
条件概率的链式法则(也叫乘法法则)：任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
P(x⁽¹⁾，x⁽²⁾，...，x⁽ⁿ⁾) = P(x⁽¹⁾) ∏ⁿ_i=2P(x⁽ⁱ⁾|x⁽¹⁾，...，x^(i-1))(∏，连乘符号)

例如一个三维随机变量有如下推导过程：
P(a,b,c) = P(a | b,c)P(b,c)
P(b,c) = P(b | c)P(c)
P(a,b,c) = P(a | b,c) P(b | c) P(c)
独立性和条件独立性：
两个随机变量 x 和 y，如果他们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 x，另外一个一个只包含 y，我们就称这两个随机变量是相互独立：
∀ x∈x，y∈y，p(x = x, y = y) = p(x = x) p(y = y)
如果关于 x 和 y的条件概率分布对于 z 的每一个值都可以写成乘积的形式，那么这两个随机变量 x 和 y在给定随机变量 z 时是条件独立的：
∀ x∈x，y∈y，z∈z p(x = x, y = y | z=z) = p(x = x | z=z) p(y = y | z=z)
也可以采用一种简化形式表示独立性和条件独立性：x⊥y，表示 x 和 y独立；x⊥y|z 表示 x 和 y 在给定 z 时独立。
期望、方差和协方差：
函数 f(x) 关于某分布 P(x) 的期望或期望值是指，当 x 是由 P产生，f 作用于 x 时，f(x)的平均值。对于离散型随机变量可以采用求和法：
E_x～P[ f(x) ] = Σ_xP(x) f(x)
对于连续型随机变量，可以通过积分得到：
E_x～p[ f(x) ] = ∫ P(x) f(x) dx
方差衡量的是随机变量的取值与期望值之间的差异：
var(f(x)) = E [ ( f(x) - E[f(x)] )² ]
方差比较小的时候，随机变量的取值在期望值附近，比较稳定。方差的平方根称为标准差。
协方差 用来衡量不同变量之间的线性相关性，如果把每一个变量看作是一个维度上的值，也可以认为协方差是度量各个维度偏离其均值的程度。方差是协方差的一个特列。
Cov( f(x),g(y) ) = E[ (f(x) - E[f(x)])] E[ (g(y) - E[g(y)])]
协方差为0，则变量之间是非线性相关的。注意，两个相互独立，则协方差为零，如果协方差非零，则一定是相关的。
协方差矩阵 随机向量 x∈Rⁿ的协方差矩阵是一个 n * n的矩阵，矩阵中的元素满足：
Cov(x)_i,j = Cov(x_i,x_j)
常用概率分布：
Bernoulli分布(伯努利分布、零一分布、两点分布) 是一个二值随机变量的分布。随机变量取值只有 0 或者 1：
P(x = 1) = ф, P(x = 0) = 1 - ф
E_x[x] = ф, var_x(x) = ф(1 - ф)
Multinoulli分布(范畴分布)是指具有k个不同状态的单个离散型随机变量上的分布。Multinoulli分布由向量p∈[0，1]^{k -1}参数化，其中每个分量p_i表示第 i 个状态的概率。第 k 个状态的概率可以通过 1 - 1^Tp给出。Multinoulli分布常用来表示对象分类的分布，因此通常不计算期望和方差。
高斯分布(正态分布)：
高斯分布是机器学习中最常用的分布。在先验知识不足的时候，正态分布是默认比较好的选择。并且由中心极限定律可知很多独立随机变量的和近似服从正态分布。


高斯分布公式	高斯分布的概率密度函数图像

多维正态分布：

其中，参数μ依然表示分布的均值，但现在是向量。参数 Σ 是分布的协方差矩阵。一个更简单的版本是各向同性高斯分布，它的协方差矩阵是一个标量乘以单位矩阵。

指数分布和Laplace分布：
在深度学习中，常常需要一个在 x = 0处取得边界点的分布，可以使用指数分布：
p(x;λ) = λ1_x≥0 exp(-λx)
指示函数 1_x≥0 表示 x取得负值时的概率为0。
Laplace分布允许在任意一点 μ 处设置概率分布的峰值：


Laplace公式	Laplace分布图像

Dirac分布和经验分布：
在一些情况下，可能会希望概率分布中的所有质量集中在一个点上，这个时候可以使用Dirac delta函数δ(x)来实现（该函数做了偏移）：
p(x) = δ(x - μ)
Dirac delta函数被定义成除0以外所有点的值都为0，但是积分为1，是一种依据积分性质定义的广义函数。
Dirac分布常常作为经验分布的一个组成部分出现：

经验分布将概率密度 1／m 赋给 m 个点 x⁽¹⁾，x⁽²⁾，...，x^(m) 中的每一个，这些点是给定数据集火样本采样的集合。只有在定义连续型随机变量的经验分布时，Dirac delta函数才是必要的。对于离散型随机变量，可以定义成一个Multinoulli分布。
常用函数的有用性质：
logistic sigmoid函数


公式	图像

softplus函数，softplus函数是 max(0,x)函数的平滑形式：


公式	图像

贝叶斯规则：
P(x|y) = ( P(x) P(y|x) )／P(y)
其中：
P(y) = Σ_x( P(y|x)P(x) )
信息论：
自信息：I(x) = -㏑P(x)，单位是奈特。一奈特是以 1/e 的概率观测到一个事件时获取到的信息量。自信息只处理单个的输出。
香农熵：用来对整个概率分布中的不确定性总量进行量化：H(x) = E_x～P[I(x)] = －E_x～P[ln P(x)]。也记作H(P)。换句话说，一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。确定性的熵、分布具有较低的熵，接近均匀分布的概率分布具有较高的熵。当 x 是连续的时候，香农熵被称为微分熵。
KL散度：对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，可以使用KL散度来衡量两个分布的差异：

在离散型随机变量的情况下，KL散度衡量的是，当我们使用一种被设计成能够使得概率分布Q产生的消息的长度最小的编码，发送包含由概率分布P产生的符号消息时，所需要的额外信息。KL散度是非负的，并且是非对称的，对于某些 P 和 Q，D_KL(P || Q) ≠ D_KL(Q||P)。
交叉熵： 和KL散度很相似：H(P,Q) = H(P) + D_KL(P || Q)
在信息论中认为lim_x→0 x (ln x) = 0
结构化模型：
机器学习（深度学习）的算法中常常会涉及在非常多的随机变量上的概率分布，为了通过分解来减少参数从而降低计算的复杂度，提出了使用图论中“图”的概念，使用图来分解概率分布时，称为结构化模型或者图模型。采用的图主要有两种：有向图和无向图，区别在于途中顶点相连边是否有有方向。特别地，有向模型对于分布中的每一个随机变量 x_i 都包含着一个影响因子

参考资料：
《深度学习》

深度学习新手，文章若有疏漏，欢迎及时指正！

最后编辑于：2019.08.15 21:06:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

深度学习（三）：概率与信息论基础

推荐阅读更多精彩内容