模式识别与机器学习(三)——高斯分布基础

1.2中 高斯分布基础

高斯分布是概率论中最常用的概率分布之一,其概率密度函数如下
\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi \sigma^2)^{1/2}} \exp({-\frac{1}{2\sigma^2} (x-\mu)^2})
高斯分布由两个参数控制,其中 \mu 是均值,\sigma^2 是方差。\sigma 称为标准差,方差的倒数 \beta=1/\sigma^2 称为精度。显然高斯分布满足概率的以下两个性质:
\mathcal{N}(x|\mu,\sigma^2)>0\\\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)dx=1

高斯分布的期望为
\mathbb{E}[x]=\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)\ x\ dx=\mu
高斯分布的二阶矩为
\mathbb{E}[x^2]=\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)\ x^2\ dx=\mu^2+\sigma^2

方差为
var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2=\sigma^2

\mathbf{x}D 维的向量,则其对应的多元高斯分布的概率密度函数为:
\mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}\exp\big\{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^\top\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\big\}

其中 \mathbf{\mu}D 维的均值向量,\SigmaD\times D 的协方差矩阵,|\Sigma| 表示 \Sigma 的行列式。
现在假设有一组观测数据 \mathrm{x}=\{x_1,...,x_N\},每个 x_i 均为 D 维向量。为了确定高斯分布的参数我们假定它们是独立同分布地从同一个分布产生的,于是这组数据的似然函数可以表示为
p(\mathrm{x}|\mu,\sigma^2 )=\prod_{n=1}^N \mathcal{N}(x_n|\mu, \sigma^2)

频率派最常用的参数估计方法是最大似然估计,其思想是通过最大化似然函数找到参数的估计。

MLE

⾼斯概率分布的似然函数,由红⾊曲线表⽰。这⾥,黑点表⽰数据集 \{x_n\} 的值,似然函数对应于蓝⾊值的乘积。最大化似然函数涉及到调节⾼斯分布的均值和⽅差,使得这个乘积最⼤。

由于对似然函数取对数不影响优化,我们可以得到对数似然函数:
\ln\ p(\mathrm{x}|\mu,\sigma^2 )=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}ln\ \sigma^2-\frac{N}{2}\ln\ (2\pi)

关于 \mu 优化,得到其最大似然估计
\mu_{ML}=\frac{1}{N} \sum_{n=1}^N x_n

注意到 \mu 的最大似然估计等价于样本均值。关于 \sigma^2 我们得到
\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N (x_n-\mu_{ML})^2

注意到 \sigma_{ML}^2 的最大似然估计是有偏估计:
\mathbb{E}[\mu_{ML}]=\mu\\\mathbb{E}[\sigma^2_{ML}]=\bigg(\frac{N-1}{N}\bigg)\sigma^2
也就是说 \sigma^2_{ML} 低估了 \sigma^2,这种有偏性随着样本量增大而逐渐减轻。为了无偏,很简单的,我们得到修正的估计:
\widetilde{\sigma}^2=\frac{1}{N-1}\sum_{n=1}^N (x_n-\mu_{ML})^2

上述估计是无偏的。

当数据点的数量 N 增大时, 最⼤似然解的偏移会变得不太严重, 并且在 N \to 无穷 的情况下,⽅差的最大似然估计与产⽣数据的分布的真实方差相等。

补充证明:
\begin{align} \mathbb{E}[\mu_{ML}]&=\mathbb{E}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}[x_{i}]=\mu \\ \mathbb{E}[\sigma_{ML}^{2}] &=\mathbb{E}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{ML})^{2}]=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{ML}+\mu_{ML}^{2})\nonumber\\ &=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\frac{2}{N}\mu_{ML}\sum_{i=1}^{N}x_i+\frac{1}{N}\sum_{i=1}^{N}\mu_{ML}^{2}]=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{ML}^{2}]\nonumber\\ &= \mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}]-E [\mu_{ML}^{2}]\\ &=\frac{1}{N}\cdot N(\sigma^2+\mu^2)-(\frac{\sigma^2}{N}+\mu^2) =\frac{N-1}{N}\sigma^{2} \end{align}

从贝叶斯角度看曲线拟合问题

我们已经看到,多项式曲线拟合的问题可以通过误差最小化问题来表⽰。这⾥我们回到曲线拟合的问题,从概率的⾓度来考察它,可以更深刻地认识误差函数和正则化,并且能够让我们完全从贝叶斯的角度来看待这个问题。

假设给定输入变量 x,目标变量值 t 服从一个均值为 y(x,\mathbf{w}) 的高斯分布:
p(t|x, \mathbf{w},\beta)=\mathcal{N}(t| y(x,\mathbf{w}), \beta^{-1})

其中 \beta=1/\sigma^2 为高斯分布的精度。 可以看到上述分布的控制变量为 \mathbf{w}\beta

我们进一步假设数据集 \mathrm{x}=\{x_1,...,x_N\} 中的样本点独立同分布地从上述的高斯分布产生。那么为了求得 t 的分布,使用最大似然估计方法。该数据集的似然函数为:
p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )=\prod_{n=1}^N \mathcal{N}(t_n| y(x_n,\mathbf{w}), \beta^{-1})

最大似然估计的目标是最大化对数似然函数:
\mathbf{w}_{ML}=\arg\max_{\mathbf{w}}\ln\ p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )
通过取对数,我们得到对数似然函数:
\mathcal{L}(\mathbf{w},\beta)=ln \, p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+ \frac{N}{2}ln\, \beta- \frac{N}{2} ln\, (2\pi)
我们不去最大化似然函数,等价地我们来最小化负对数似然函数。

上公式的最后两项与 \mathbf{w} 无关,因此我们可以丢掉它们。于是我们的目标变为最小化
\frac{\beta}{2}\sum_{n=1}^N \{ y(x_n,\mathbf{w})-t_n \}^2

基于 \mathbf{w} 不依赖于 \beta\beta>0 的事实,我们可以任意放缩系数 \frac{\beta}{2}。为了后序处理的方便,我们将系数定为 1/2。最终,我们的目标函数定义如下:
\mathbf{w}_{ML}=\arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N \{ y(x_n,\mathbf{w})-t_n \}^2
发现这个函数就是1.1节中的平方和误差函数。至此我们证明了在高斯分布的假设下,最大化似然函数等价于最小化平方和误差函数。接着,我们还要优化 \beta :
\frac{\partial \mathcal{L}(\mathbf{w},\beta)}{\partial \beta} = -\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+ \frac{N}{2\beta}=0

由此可得
\frac{1}{\beta_{ML}}=\sigma_{ML}^2= \sum_{n=1}^N\{y(x_n,\mathbf{w}_{ML})-t_n\}^2

\mathbf{w}_{ML},\beta_{ML} 代回到本节开头的概率密度式就得到了关于 t 的预测分布:
p(t|x, \mathbf{w}_{ML},\beta_{ML})=\mathcal{N}(t| y(x,\mathbf{w}_{ML}), \beta_{ML}^{-1})

如图所示,给定 x 的条件下 t 的⾼斯条件概率分布如下,其中均值为多项式函数 y(x, \mathbf{w}),精度由参数 β 给出 :

贝叶斯方法

接下来介绍一种更“贝叶斯”的方法,我们可以对参数 \mathbf{w} 假设一个先验,简单起见假设其为一个零均值,协方差为对角阵的多元高斯(即其各个分量彼此不相关):
p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\boldsymbol{I})=\Big(\frac{\alpha}{2\pi}\Big)^{(M+1)/2}\exp(-\frac{\alpha}{2}\mathbf{w}^T\mathbf{w})

其中 \alpha 是高斯分布的精度,也称为超参数;M+1\mathbf{w} 中的参数个数。 根据贝叶斯公式,\mathbf{w} 的后验概率正比于似然与先验的乘积:
p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha)

很显然,\mathbf{w} 的后验依赖于 \mathrm{t}\alpha,此时还需注意到 \mathrm{x}\beta\mathbf{w}\mathrm{t} 的共同祖先,因此 \mathbf{w} 也依赖于 \mathrm{x}\beta

给定数据集,我们现在通过寻找最可能的 \mathbf{w} 值(即最⼤化后验概率)来确定 \mathbf{w}。将 p(\mathrm{t}|\mathrm{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha) 的具体形式代入并取对数,通过最大化对数后验分布我们得到关于 \mathbf{w} 的最大后验估计(MAP, maximum a posteriori):
\begin{aligned}\mathbf{w}_{MAP}&=\arg\max_{\mathbf{w}} \ln\ p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\\&=\arg\max_{\mathbf{w}} - \frac{\beta}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2-\frac{\alpha}{2}\mathbf{w}^T\mathbf{w}\\&=\arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2+\frac{\alpha}{2\beta}\mathbf{w}^T\mathbf{w}\\&= \arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2+\frac{\lambda}{2}\mathbf{w}^T\mathbf{w}\end{aligned}
其中 \lambda=\frac{\alpha}{\beta},就是1.1节中的正则化系数。因此我们看到给定参数先验、最大化后验概率等价于最小化正则化的平⽅和误差函数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342