机器学习中的频率派和贝叶斯派-以极大似然估计和最大后验估计为例

这是一个新的系列，会整理一下以前在ipad上写的笔记。

前言

把概率引进到机器学习当中是一件很自然的事情，许多机器学习当中问题的本质都可以从概率中的频率派（Frequentist）或贝叶斯派（Bayesian）的观点去看待，学习越成体系，对这点的感受就越多。
为了方便接下来的阐述，举个例子：我们现在用 $X$ 表示数据， $\theta$ 表示参数，假设我们有 $N$ 个样本，每个样本的维度是 $P$ ，即 $X = (x_1,x_2,\cdots,x_N)^T_{N × P} = \begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1P}\\ x_{21}&x_{12}&\cdots&x_{1P}\\ \vdots&\vdots&\vdots&\vdots\\ x_{1}&x_{12}&\cdots&x_{1P}\\ \end{pmatrix}$
我们假设这是一个概率模型，即 $x \sim P(x|\theta)$ ，接下来我们从这个例子看看频率派和贝叶斯派的观点。

频率派

频率派认为， $P(x|\theta)$ 中的 $\theta$ 是一个未知的常量，而数据 $x$ 则是一个随机变量（Random Variables），频率派要做的就是把这个未知的常量给估计出来。
举个例子：比如我们抛硬币，我们抛100次硬币，40次朝上，60次朝下。我们把40次朝上，60次朝下视作我们的数据 $x$ ，硬币朝上的概率视作我们的概率 $P(x=向上|\theta)$ ，频率派的观点是很自然的，他认为既然现在发生了40次朝上，60次朝下的情况，我们就相信这不是偶然的，这个已发生的事件肯定反映了硬币向上的真实概率。所以我们要做的就是让出现40次朝上，60次朝下这种事件的概率最大，把模型中的参数 $\theta$ 依据数据 $x$ 给估计出来，这样就可以还原真实世界对于抛硬币的情况了。调整模型参数来使得模型能够最大化数据样本出现的概率，对于频率派最常用的就是极大似然估计（Maximum Likelihood Estimate，MLE）。

最大似然估计(MLE)

我们把 $P(x|\theta)$ 称为似然函数，他的意义就是对于不同的参数 $\theta$ ，出现 $x$ 的概率是多少。而现在我们就是要最大化这个概率，自然是想求出极值点。
首先我们的数据 $x$ 是符合独立同分布的，所以 $P(x|\theta) = \prod ^ N _ {i = 1}(x_i|\theta)$
因为我们要求极值点，求导时连乘不好处理，而 $g(x)$ 和 $log(g(x))$ 单调性一致，所以我们把连乘变成连加： $log P(x|\theta) = \sum ^ N _ {i = 1}(x_i|\theta)$
所以对于模型的参数估计就转换为: $\theta_{MLE} = \mathop{\arg\max}\limits_{\theta} log \sum ^ N _ {i = 1}(x_i|\theta)$
频率派发展出来的方法就是统计机器学习，本质上就是优化问题。统计机器学习一般先有个模型，可以是概率模型，也可以是非概率模型；第二步设计损失函数，比如上面的 $log P(x|\theta)$ ；第三步则是用梯度下降，牛顿法等方法优化我们的模型。

贝叶斯派

和频率派不同，贝叶斯派认为 $P(x|\theta)$ 中的 $\theta$ 则是一个随机变量（Random Variables），服从一个概率分布，即 $\theta \sim P(\theta)$ 。贝叶斯派认为参数空间中的每个值都有可能是真实模型使用的参数，只是概率不同，因此便引入了先验概率和后验概率。
举个例子：还是抛硬币这个例子，我们想通过抛硬币的结果来看看硬币朝上的概率是多少，不同的是，贝叶斯派并不会单纯从抛硬币的结果出发，不会认为这个结果一定反映了硬币向上的真实概率，他是先有一个先验概率（ $P(\theta)$ ），即在抛硬币之前我们有一个主观判断认为硬币向上的概率就是0.5，在这个先验概率的基础上，根据我们实际观测到的结果( $P(x|\theta)$ )，比如实验后硬币朝上的概率为0.4，来不断调整我们模型的参数来让他向真实的结果靠拢。
熟悉贝叶斯公式的读者这时候应该就反应过来了，贝叶斯公式是：
$P(\theta|x) = \frac{p(x|\theta) × p(\theta)}{p(x)}$
公式中的 $P(\theta|x)$ 就是我们要求的后验概率， $p(x|\theta)$ 是似然函数，代表了我们实际观测到的结果，而 $p(\theta)$ 则是我们对这件事的一个先验概率，贝叶斯公式巧妙地将先验概率，似然函数和后验概率结合在了一起来对模型参数分布进行有效的估计。和频率派类似，我们也要调整模型参数使得模型能够产生该数据样本的概率最大，所以就有了最大后验概率(MAP)。

最大后验概率(MAP)

在贝叶斯公式当中，分母是 $p(x)$ ，它是一个积分 $\int_{\theta}p(x|\theta) p(\theta) d \theta$ ,本质上就是一个跟 $\theta$ 无关的常数。而我们现在要最大化后验概率 $P(\theta|x)$ ，即 $\mathop{\arg\max}\limits_{\theta} P(\theta|x)$ ，而分母跟 $\theta$ 无关，所以最大后验概率的公式为：
$\theta_{MAP} = \mathop{\arg\max}\limits_{\theta} P(\theta|x)\propto \mathop{\arg\max}\limits_{\theta} p(x|\theta) × p(\theta)$

贝叶斯估计

当然这不是真正的贝叶斯估计，因为我们分母的积分部分被我们用正比于消除了，而求解这个值需要在整个的参数空间进行积分，这个求解的过程是十分复杂，一般我们会通过一些采样的方法比如蒙特卡洛的方法去近似这个积分来得到真正的贝叶斯估计。贝叶斯估计的公式为：
$P(\theta|x) = \frac{p(x|\theta) × p(\theta)}{\int_{\theta}p(x|\theta) p(\theta) d \theta}$

贝叶斯预测

那我们求贝叶斯估计有什么用呢？举个例子：我们已知的数据样本为 $X$ ,要对未知的数据 $\widetilde{x}$ 进行预测，即要求 $P(\widetilde{x}|X)$ 。这时候我们就可以通过我们的贝叶斯估计出来的参数分布，给未知的数据和已知的数据样本之间搭建一个桥梁，即： $X -> \theta -> \widetilde{x}$ ，那我们就可以依据这个桥梁对 $P(\widetilde{x}|X)$ 求关于 $\theta$ 的边缘概率了：
$P(\widetilde{x}|X) = \int_{\theta} P(\widetilde{x},\theta|X)d\theta = \int_{\theta}P(\widetilde{x}|\theta,X)P(\theta|X)d\theta$
因为数据符合独立同分布，所以:
$P(\widetilde{x}|X) = \int_{\theta}P(\widetilde{x}|\theta)P(\theta|X)d\theta$
这样我们就可以成功对新数据做出预测，其实贝叶斯预测也就是在求后验概率分布的期望了。
由贝叶斯派发展出了概率图模型中的马尔可夫随机场等的算法，在自然语言处理领域有着大量的应用。

总结

从大的方向来说，频率派和贝叶斯派看待世界的角度不同。
频率派认为世界是确定的，存在某个定值可以让我们描述出这个世界。他们直接对事件结果建模，也就是说事件在多次重复实验中趋于一个稳定的值p，那么这个值就是该事件的概率。他们认为模型参数是个定值，希望直接通过最大化事件发生概率来求出模型参数，这就是频率学派使用的参数估计方法，极大似然估计，这种方法在数据量大的情况下可以很好的还原模型的真实情况。
贝叶斯派则认为世界是不确定的，不同人因获取的信息不同而对这个世界会有不同的判断。人们对世界先有一个自己的认识，然后通过获取的信息来不断调整之前的认识，最终找到最能描述这个世界的概率分布。这就是贝叶斯派视角下用来估计参数的常用方法，最大后验概率估计，这种方法在先验假设比较靠谱的情况下效果显著，随着数据量的增加，先验假设对于模型参数的主导作用可能会逐渐减弱，而真实的数据会慢慢主导模型。

参考

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

机器学习中的频率派和贝叶斯派-以极大似然估计和最大后验估计为例

前言

频率派

最大似然估计(MLE)

贝叶斯派

最大后验概率(MAP)

贝叶斯估计

贝叶斯预测

总结

参考

推荐阅读更多精彩内容