最大熵和概率分布

概率论

我们需要描述一组数据时候,本质上需要描述每一个点。但是如果我们可以用分布去表示这些数据,就只需要均值或者方差分布参数,大大节省了存储空间。

离散型随机分布

伯努利分布:一次实验,结果只有两种结果。p(k)=p^k(1-p)^{(1-k)}, k\in\{0, 1\} ,期望:p,方差:p(1-p)

二项分布:n次伯努利实验正好得到k次成功的概率,单次成功的概率为p。当n=1的时候退化到伯努利分布。当p=0.5的时候,整体上和正态分布图形类似。p(k)=C_n^kp^k(1-p)^{n-k},期望:np,方差:np(1-p)

几何分布:进行n次伯努利实验,在获取成功前需要进行多少次实验。分布图形是越往前概率越大,p(k)=(1-p)^{k-1}p, 期望\frac{1}{p}, 方差是\frac{(1-p)}{p^k}

泊松分布:单位时间内独立事件发生次数的概率分布,它是二项分布n很大而p很小时的极限。泊松分布可以把单位时间切成n次,每次成功的概率为p,那么单位时间内出现k次的概率就是二项分布,所以泊松分布是二项分布的一种极限形式。它的分布图形也和二项分布类似,特别是n很大而p很小时。p(k)=\frac{e^{-\lambda}\lambda^k}{k!}, 期望和方差都是\lambda,其中k是发生的次数,\lambda是发生的平均次数,当\lambda>=20时,泊松分布趋向于正态分布。

指数分布:对应于泊松分布,指数分布是指两次独立事件发生的时间间隔的概率分布。
p(k)=\lambda e^{-\lambda k},其中\lambda是指单位时间内独立事件发生的次数。期望=\frac{1}{\lambda},方差=\frac{1}{\lambda^2}

负二项分布:在一连串伯努利实验中,恰好在第r+k次实验出现第r次成功的概率。换句话说,是指出现第r次成功时所需要的总实验次数的概率分布。
p(k,r,p)=C_{r+k-1}^{r-1}p^{r}(1-p)^{k},期望E(k)=\frac{k(1-p)}{p}, 方差D(k)=\frac{k(1-p)}{p^2}

多项分布:二项分布的扩展。

连续型随机分布

均匀分布:p(x)=\frac{1}{b-a},期望\frac{b+a}{2}, 方差\frac{(b-a)^2}{12}

正态分布:p(x)=N(\mu, \sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},期望\mu,方差\sigma

指数分布:可以扩展到连续随机变量,仍然代表两次独立事件发生的事件间隔(实数)。公式和上面一致。

最大熵

那么以上的概率分布是如何来的呢?最大熵理论提供了一种解释的方法,概率分布是满足一定约束条件下的最大熵概率分布。对于一个随机变量来说,如果没有任何约束,我们大概率倾向于该随机变量符合均匀分布。对应到现实中,如果没有任何前提条件,我们认为事件发生的概率是相同的。比如骰子,我们会默认每一面的概率是1/6。最大熵概率分布满足一下条件:
math max_pH(p)=-\int_yp(y)logp(y)dy, st. \int_yp(y)=1, p(y)>=0, \int_yp(y)*f_i(y)dy=a_i
其中ai是预先定好的约束条件,比如均值、方差。 使用拉格朗日乘子得到:

math L(p,\mu,\lambda)=\int_yp(y)logp(y)dy - \mu_0p(y) + \mu_1(\int_yp(y)-1) + \sum_i\lambda_i(\int_yp(y)*f_i(y)dy-a_i)
其中\mu,\lambda都为正数,解为:
math p^* = min_p max_{\mu,\lambda}L=max_{\mu,\lambda}min_pL
假设y值固定在某个确定的值,对p求偏导:
math \frac{\partial L}{\partial p} = logp + \frac{1}{ln2}-\mu_0 + \mu_1 + \sum_i\lambda_if_i(y) = 0
等式两边乘以ln2,对logp进行换底:

math lnp + 1 - \mu_0 + \mu_1 + \sum_i\lambda_if_i(y) = 0
得到解p*:
math p^*(y) = e^{ - 1 + \mu_0 - \mu_1 - \sum_i\lambda_if_i(y)} = c*e^{-\sum_i\lambda_if_i(y)}

伯努利分布推导

约束条件:
math f(y) = y\rightarrow\int_yp(y)*y=\mu, y\in\{0,1\}
其中\mu代表事件成功的概率,也是伯努利分布的期望值,得到c*e^{-\lambda}=\mu
同时:p(0) + p(1) = 1 \rightarrow c + ce^{-\lambda}=1
由以上两式得到:c=1-\mu, \lambda=-ln\frac{\mu}{1-\mu}
综合以上:p(y)=(1-\mu)*(\frac{\mu}{1-\mu})^y=(1-\mu)^{1-y}\mu^y, 我们就得到了伯努利分布的公式,伯努利分布是在约束期望值下的最大熵概率分布。

正态分布推导

约束条件:均值和方差

其他分布的约束条件
image
其他概念

概率分布函数,条件概率,联合概率, 独立分布,条件独立,熵, 交
叉熵、条件熵、KL散度

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335