模式识别与机器学习(三)——高斯分布基础

1.2中高斯分布基础

高斯分布是概率论中最常用的概率分布之一，其概率密度函数如下
$\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi \sigma^2)^{1/2}} \exp({-\frac{1}{2\sigma^2} (x-\mu)^2})$
高斯分布由两个参数控制，其中 $\mu$ 是均值， $\sigma^2$ 是方差。 $\sigma$ 称为标准差，方差的倒数 $\beta=1/\sigma^2$ 称为精度。显然高斯分布满足概率的以下两个性质：
$\mathcal{N}(x|\mu,\sigma^2)>0\\\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)dx=1$

高斯分布的期望为
$\mathbb{E}[x]=\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)\ x\ dx=\mu$
高斯分布的二阶矩为
$\mathbb{E}[x^2]=\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)\ x^2\ dx=\mu^2+\sigma^2$

方差为
$var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2=\sigma^2$

设 $\mathbf{x}$ 是 $D$ 维的向量，则其对应的多元高斯分布的概率密度函数为：
$\mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}\exp\big\{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^\top\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\big\}$

其中 $\mathbf{\mu}$ 是 $D$ 维的均值向量， $\Sigma$ 是 $D\times D$ 的协方差矩阵， $|\Sigma|$ 表示 $\Sigma$ 的行列式。
现在假设有一组观测数据 $\mathrm{x}=\{x_1,...,x_N\}$ ，每个 $x_i$ 均为 $D$ 维向量。为了确定高斯分布的参数我们假定它们是独立同分布地从同一个分布产生的，于是这组数据的似然函数可以表示为
$p(\mathrm{x}|\mu,\sigma^2 )=\prod_{n=1}^N \mathcal{N}(x_n|\mu, \sigma^2)$

频率派最常用的参数估计方法是最大似然估计，其思想是通过最大化似然函数找到参数的估计。

MLE

⾼斯概率分布的似然函数，由红⾊曲线表⽰。这⾥，黑点表⽰数据集 $\{x_n\}$ 的值，似然函数对应于蓝⾊值的乘积。最大化似然函数涉及到调节⾼斯分布的均值和⽅差，使得这个乘积最⼤。

由于对似然函数取对数不影响优化，我们可以得到对数似然函数：
$\ln\ p(\mathrm{x}|\mu,\sigma^2 )=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}ln\ \sigma^2-\frac{N}{2}\ln\ (2\pi)$

关于 $\mu$ 优化，得到其最大似然估计
$\mu_{ML}=\frac{1}{N} \sum_{n=1}^N x_n$

注意到 $\mu$ 的最大似然估计等价于样本均值。关于 $\sigma^2$ 我们得到
$\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N (x_n-\mu_{ML})^2$

注意到 $\sigma_{ML}^2$ 的最大似然估计是有偏估计：
$\mathbb{E}[\mu_{ML}]=\mu\\\mathbb{E}[\sigma^2_{ML}]=\bigg(\frac{N-1}{N}\bigg)\sigma^2$
也就是说 $\sigma^2_{ML}$ 低估了 $\sigma^2$ ，这种有偏性随着样本量增大而逐渐减轻。为了无偏，很简单的，我们得到修正的估计：
$\widetilde{\sigma}^2=\frac{1}{N-1}\sum_{n=1}^N (x_n-\mu_{ML})^2$

上述估计是无偏的。

当数据点的数量 $N$ 增大时，最⼤似然解的偏移会变得不太严重，并且在 $N \to 无穷$ 的情况下，⽅差的最大似然估计与产⽣数据的分布的真实方差相等。

补充证明：
$\begin{align} \mathbb{E}[\mu_{ML}]&=\mathbb{E}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}[x_{i}]=\mu \\ \mathbb{E}[\sigma_{ML}^{2}] &=\mathbb{E}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{ML})^{2}]=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{ML}+\mu_{ML}^{2})\nonumber\\ &=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\frac{2}{N}\mu_{ML}\sum_{i=1}^{N}x_i+\frac{1}{N}\sum_{i=1}^{N}\mu_{ML}^{2}]=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{ML}^{2}]\nonumber\\ &= \mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}]-E [\mu_{ML}^{2}]\\ &=\frac{1}{N}\cdot N(\sigma^2+\mu^2)-(\frac{\sigma^2}{N}+\mu^2) =\frac{N-1}{N}\sigma^{2} \end{align}$

从贝叶斯角度看曲线拟合问题

我们已经看到，多项式曲线拟合的问题可以通过误差最小化问题来表⽰。这⾥我们回到曲线拟合的问题，从概率的⾓度来考察它，可以更深刻地认识误差函数和正则化，并且能够让我们完全从贝叶斯的角度来看待这个问题。

假设给定输入变量 $x$ ，目标变量值 $t$ 服从一个均值为 $y(x,\mathbf{w})$ 的高斯分布:
$p(t|x, \mathbf{w},\beta)=\mathcal{N}(t| y(x,\mathbf{w}), \beta^{-1})$

其中 $\beta=1/\sigma^2$ 为高斯分布的精度。可以看到上述分布的控制变量为 $\mathbf{w}$ 和 $\beta$ 。

我们进一步假设数据集 $\mathrm{x}=\{x_1,...,x_N\}$ 中的样本点独立同分布地从上述的高斯分布产生。那么为了求得 $t$ 的分布，使用最大似然估计方法。该数据集的似然函数为:
$p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )=\prod_{n=1}^N \mathcal{N}(t_n| y(x_n,\mathbf{w}), \beta^{-1})$

最大似然估计的目标是最大化对数似然函数：
$\mathbf{w}_{ML}=\arg\max_{\mathbf{w}}\ln\ p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )$
通过取对数，我们得到对数似然函数：
$\mathcal{L}(\mathbf{w},\beta)=ln \, p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+ \frac{N}{2}ln\, \beta- \frac{N}{2} ln\, (2\pi)$
我们不去最大化似然函数，等价地我们来最小化负对数似然函数。

上公式的最后两项与 $\mathbf{w}$ 无关，因此我们可以丢掉它们。于是我们的目标变为最小化
$\frac{\beta}{2}\sum_{n=1}^N \{ y(x_n,\mathbf{w})-t_n \}^2$

基于 $\mathbf{w}$ 不依赖于 $\beta$ 且 $\beta>0$ 的事实，我们可以任意放缩系数 $\frac{\beta}{2}$ 。为了后序处理的方便，我们将系数定为 $1/2$ 。最终，我们的目标函数定义如下:
$\mathbf{w}_{ML}=\arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N \{ y(x_n,\mathbf{w})-t_n \}^2$
发现这个函数就是1.1节中的平方和误差函数。至此我们证明了在高斯分布的假设下，最大化似然函数等价于最小化平方和误差函数。接着，我们还要优化 $\beta$ :
$\frac{\partial \mathcal{L}(\mathbf{w},\beta)}{\partial \beta} = -\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+ \frac{N}{2\beta}=0$

由此可得
$\frac{1}{\beta_{ML}}=\sigma_{ML}^2= \sum_{n=1}^N\{y(x_n,\mathbf{w}_{ML})-t_n\}^2$

将 $\mathbf{w}_{ML},\beta_{ML}$ 代回到本节开头的概率密度式就得到了关于 $t$ 的预测分布：
$p(t|x, \mathbf{w}_{ML},\beta_{ML})=\mathcal{N}(t| y(x,\mathbf{w}_{ML}), \beta_{ML}^{-1})$

如图所示，给定 $x$ 的条件下 $t$ 的⾼斯条件概率分布如下，其中均值为多项式函数 $y(x, \mathbf{w})$ ，精度由参数 $β$ 给出 :

贝叶斯方法

接下来介绍一种更“贝叶斯”的方法，我们可以对参数 $\mathbf{w}$ 假设一个先验，简单起见假设其为一个零均值，协方差为对角阵的多元高斯（即其各个分量彼此不相关）：
$p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\boldsymbol{I})=\Big(\frac{\alpha}{2\pi}\Big)^{(M+1)/2}\exp(-\frac{\alpha}{2}\mathbf{w}^T\mathbf{w})$

其中 $\alpha$ 是高斯分布的精度，也称为超参数； $M+1$ 是 $\mathbf{w}$ 中的参数个数。根据贝叶斯公式， $\mathbf{w}$ 的后验概率正比于似然与先验的乘积：
$p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha)$

很显然， $\mathbf{w}$ 的后验依赖于 $\mathrm{t}$ 和 $\alpha$ ，此时还需注意到 $\mathrm{x}$ 、 $\beta$ 和 $\mathbf{w}$ 是 $\mathrm{t}$ 的共同祖先，因此 $\mathbf{w}$ 也依赖于 $\mathrm{x}$ 和 $\beta$ 。

给定数据集，我们现在通过寻找最可能的 $\mathbf{w}$ 值（即最⼤化后验概率）来确定 $\mathbf{w}$ 。将 $p(\mathrm{t}|\mathrm{x},\mathbf{w},\beta)$ 和 $p(\mathbf{w}|\alpha)$ 的具体形式代入并取对数，通过最大化对数后验分布我们得到关于 $\mathbf{w}$ 的最大后验估计（MAP, maximum a posteriori）：
$\begin{aligned}\mathbf{w}_{MAP}&=\arg\max_{\mathbf{w}} \ln\ p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\\&=\arg\max_{\mathbf{w}} - \frac{\beta}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2-\frac{\alpha}{2}\mathbf{w}^T\mathbf{w}\\&=\arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2+\frac{\alpha}{2\beta}\mathbf{w}^T\mathbf{w}\\&= \arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2+\frac{\lambda}{2}\mathbf{w}^T\mathbf{w}\end{aligned}$
其中 $\lambda=\frac{\alpha}{\beta}$ ，就是1.1节中的正则化系数。因此我们看到给定参数先验、最大化后验概率等价于最小化正则化的平⽅和误差函数。

模式识别与机器学习(三)——高斯分布基础

1.2中 高斯分布基础

从贝叶斯角度看曲线拟合问题

1.2中高斯分布基础