参数的贝叶斯估计

介绍
第一部分 参数方法——类密度模型参数估计
第二部分 监督学习——分类(基于似然的方法)
第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)
第四部分 监督学习——回归
第五部分 监督学习——关联规则
第六部分 维度规约(特征的提取和组合)
第七部分 半参数方法
第八部分 非监督学习——聚类
第九部分 非参数方法——密度估计
第十部分 非参数方法——决策树实现的判别式
第十一部分 多层感知器——非参数估计器
第十二部分 局部模型
第十三部分 支持向量机与核机器
第十四部分 隐马尔科夫模型
第十五部分 参数的贝叶斯估计
第十六部分 集成学习——组合多学习器
第十七部分 增强学习
第十八部分 机器学习实验
第十九部分 特征工程与数据预处理

在贝叶斯方法中,把参数看做具有某种概率分布的随机变量,对参数的这种不确定性建模。
在极大似然估计中,把参数看做未知常数,取最大化似然l(\theta|X)\equiv p(X|\theta)=\prod_{t=1}^N p(x^t|\theta)的参数为估计值。但在使用小样本时,极大似然估计可能是很差的估计,在不同的训练集上求得的参数相差较大,具有较大方差。
在贝叶斯估计中,利用估计\theta具有不确定这一事实,不是估计单个\theta,而是通过估计分布p(\theta|X),加权使用所有的\theta。也就是分摊估计的不确定性。

在估计p(\theta|X)时,可以利用我们可能具有的关于参数值的先验信息p(\theta)。尤其在使用小样本时,先验信息很重。使用贝叶斯规则,将先验与似然结合在一起,来计算后验p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}
这样,给定样本X,能够用它估计新实例x^{\prime}的概率分布:
p(x^{\prime}|X)=\frac{p(x^{\prime},X)}{p(X)} =\frac{\int p(x^{\prime},X,\theta)\mathrm{d}\theta}{p(X)} =\frac{\int p(\theta)p(X|\theta)p(x^{\prime}|\theta)\mathrm{d}\theta}{p(X)} =\int p(x^{\prime}|\theta)p(\theta|X)\mathrm{d}\theta
如果\theta是离散值,则用\sum_{\theta}取代积分,后验则为样本X下每个\theta的可能性。

这与《参数方法——类密度模型参数的估计》中介绍的贝叶斯估计不同,没有先估计确定的\theta_{Bayes},而是对所有可能的后验进行了积分,是全贝叶斯方法

但大多数情况下这个积分很难计算的,除非后验有很好的形式(所以《参数方法——类密度模型参数的估计》中的方法,将参数归结到一点,不去计算这个积分)。

但贝叶斯估计还是有其独有的优点。首先先验帮助忽略了不太可能的\theta。此外,不是在预测时使用单个\theta,而是生成可能的\theta值集合,并在预测时全部使用,用可能性加权。
而最大后验(MAP)方法使用先验,则只利用了第一个优点。而对于极大似然(ML)方法,这两个优点都不具备。

对于很多无法计算的情况,通过近似计算来处理,包括马尔科夫链蒙特卡洛抽样,拉普拉斯近似、变分近似。


对离散分布的参数的贝叶斯估计

  1. 两类K=2
    样本x^t=\{ 0,1 \}服从伯努利分布,假定q 为样本为1 的概率。样本似然为p(X|q)=\prod_t q^{x^t}(1-q)^{1-x^t}
    需要对伯努利分布的参数 q 进行估计。采用贝塔分布beta(q|\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}q^{\alpha-1}(1-q)^{\beta-1}描述参数的先验。其中\alpha\beta是先验分布的参数,称作超参数\Gamma(x)伽马函数,定义为\Gamma(x)\equiv\int_o^{\infty}u^{x-1}e^{-u}\mathrm{d}u
    这样给定了先验和似然,可以得到参数的后验
    p(q|X)\propto p(X|q)p(q|\alpha,\beta)\propto q^{A+\alpha-1}(1-q)^{N-A+\beta-1}
    其中A=\sum_tx^t,N 是样本总量。可以看到先验和后验具有相同的的形式,称这样的先验为共轭先验
    通过后验,可以对超参数\alpha\beta做出这样的解释。A是N个样本中为1 的次数,\alpha可以看做在假想的\alpha+\beta个样本中出现1 的次数。后验结合了实际样本和假想样本。当\alpha=\beta=1时,有均匀的先验,并且后验和似然有相同的形状。随着两数的增大,及它们之差的增加,根据伽马分布,整个后验具有更小方差的分布。

  2. 多类K>2
    对多类情况,样本服从多项式分布,记x^t_i=1表示实例t属于类i,并且对\forall \ j\neq i,x^t_j=0。多项式分布的参数为\mathbf{q}=[q_1,q_2,\cdots,q_K]^T,满足q_i\geq0\sum_iq_i=1
    样本似然是p(X|\mathbf{q})=\prod_{t=1}^N\prod_{i=1}^Kq_i^{x_i^t}
    对q的先验的描述是狄利克雷分布Dirichlet(\mathbf{q}|\boldsymbol{\alpha})=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots \Gamma(\alpha_K)}\prod_iq_i^{\alpha_i+N_i-1}
    其中\boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_K]^T是先验的参数,\alpha_0=\sum_i\alpha_i。同样到处后验有
    p(\mathbf{q}|X)\propto p(X|\mathbf{q})p(\mathbf{q}|\boldsymbol{\alpha})\propto\prod_iq_i^{\alpha_i+N_i-1}
    其中N_i=\sum_{t=1}^Nx_i^t。同样,后验和先验有同样的形式,都是q_i的幂的乘积形式。并且同样地看到,后验组合了实际样本和假想样本。

对高斯分布的参数的贝叶斯估计

一元高斯分布的参数估计

考虑样本来自一元高斯分布,p(x)\sim N(\mu,\sigma^2),分布的参数\mu\sigma^2是需要估计的。样本似然是p(X|\mu,\sigma^2)=\prod_t\frac1{\sqrt{2\pi}\sigma}\exp[-\frac{(x^t-\mu)^2}{2\sigma^2}]

  1. 未知均值,已知方差的情况下。均值\mu的共轭先验是高斯的,p(\mu)\sim N(\mu_0,\sigma_0^2),后验是p(\mu|X)\propto p(\mu)p(X|\mu)\sim N(\mu_N,\sigma_N^2)
    其中\mu_N=\frac{\sigma^2}{N\sigma^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}m\frac1{\sigma_N^2}=\frac1{\sigma_0^2}+\frac N{\sigma^2}m=\frac{\sum_tx^t}N是样本均值。
    可以看到,后验均值是先验均值和样本均值的加权和。当样本规模N或先验的方差\sigma_0^2大时,后验的均值越接近样本均值 m ,后验更多地依赖样本提供的信息。而当\sigma_0^2较小时,即当\mu的先验的不确定性较小时,先验\mu_0具有更大的影响。
    方差方面,当先验方差\sigma_0^2更小,或样本量N更大时,后验方差\sigma_N^2更小。
    通过在后验(在\mu)上积分,得到 x 的分布
    p(x|X)=\int p(x|\mu)p(\mu|X)\mathrm{d}\mu\sim N(\mu_N,\sigma_N^2+\sigma^2)

  2. 对于方差为未知的情况,为了推导的方便,使用精度\lambda\equiv \frac1{\sigma^2},方差的倒数来描述方差。重写样本似然有p(X|\lambda)=\prod_t\frac{\lambda^{1/2}}{\sqrt{2\pi}}\exp[-\frac{\lambda}{2}(x^t-\mu)^2]=\lambda^{N/2}(2\pi)^{-N/2}\exp[-\frac{\lambda}{2}\sum_t(x^t-\mu)^2]
    参数\lambda的共轭先验是伽马分布
    p(\lambda)\sim gamma(a_0,b_0)= \frac1{\Gamma(a_0)}b_0^{a_0}\lambda^{a_0-1}\exp({-b_0\lambda})
    其中a_0\equiv v_0/2,b_0\equiv (v_0/2)s_0^2,其中s_0^2是方差的先验估计,v_0是先验的影响程度,类似于假想样本的大小。
    后验也是伽马分布p(\lambda|X)\propto p(X|\lambda)p(\lambda)\sim gamma(a_N,b_N),其中
    a_N=a_0+\frac N2=\frac{v_0+N}2b_N=b_0+\frac N2s^2=\frac{v_0}2s_0^2+\frac N2s^2
    s^2=\frac {\sum_t(x^t-\mu)^2}N是样本方差。
    于已知方差的情况一样,后验的估计是先验和样本统计量的加权和

  3. 均值和方差均未知时,需要联合后验p(\mu,\lambda)=p(\mu|\lambda)p(\lambda)(仍用\lambda的形式来反应方差)。其中,方差先验p(\lambda)\sim gamma(a_0,b_0),均值先验p(\mu|\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})\kappa_0也可以看做假想样本的大小,反应\lambda的影响程度。
    这种情况下的联合共轭先验称为正态-伽马分布
    p(\mu,\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})\centerdot gamma(a_0,b_0)
    后验是p(\mu,\lambda|X)\sim N(\mu_N,\frac1{\kappa_N\lambda})\centerdot gamma(a_N,b_N)
    其中\kappa_N=\kappa_0+N\mu_N=\frac{\kappa_0\mu_0+N m}{\kappa_N}a_N=a_0+\frac N2b_N=b_0+\frac N2s^2+\frac{\kappa_0N}{2\kappa_N}(m-\mu_0)^2
    在后验上积分,得到对x的概率分布估计:
    p(x|X)=\iint p(x|\mu,\lambda)p(\mu,\lambda|X)\mathrm{d}\mu\mathrm{d}\lambda\sim t_{2a_N}(\mu_N,\frac{b_N(\kappa_N+1)}{a_N\kappa_N})
    是一个具有给定均值和方差的、自由度为2a_Nt分布。

多元高斯分布的参数估计

对多元变量样本,与一元样本的方法相同,只是使用了多元高斯分布p(\mathbf{x})\sim N_d(\boldsymbol{\mu},\boldsymbol{\Lambda})。其中\Lambda\equiv \boldsymbol{\Sigma}^{-1}精度矩阵
对于均值,使用多元高斯先验p(\boldsymbol{\mu}|\boldsymbol{\Lambda})\sim N_d(\boldsymbol{\mu}_0,\frac1{\kappa_0}\boldsymbol{\Lambda})
对于精度矩阵,使用多元版本的伽马分布(又称Wishart分布)先验p(\boldsymbol{\Lambda})\sim Wishart(v_0,\mathbf{V}_0)


对函数参数的贝叶斯估计

同上面概率分布的参数一样,对函数参数的估计,同样将参数看做具有一种先验分布的随机变量。使用贝叶斯规则计算后验,再求积分。

回归函数

考虑线性回归模型r=\boldsymbol{\omega}^T\mathbf{x}+\epsilon,其中\epsilon \sim N(0,\frac1{\beta})\beta是噪声的精度。
模型的参数是权重\boldsymbol{\omega},记样本为X=\{\mathbf{x}^r, r^r\}_{t=1}^N,其中\mathbf{x}\in R^dr^t\in R。将样本记为输入矩阵和期望输出向量两部分[\mathbf{X},\mathbf{r}]
给定输入的输出有概率分布p(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta)\sim N(\boldsymbol{\omega}^T\mathbf{x},\frac1{\beta})

贝叶斯估计的情况下,为参数\boldsymbol{\omega}定义一个高斯先验p(\boldsymbol{\omega})\sim N(0,\frac1{\alpha}\mathbf{I})。对于后验,可得到p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta) p(\boldsymbol{\omega})\sim N(\boldsymbol{\mu}_N,\boldsymbol{\Sigma_N})
其中\boldsymbol{\mu}_N=\beta\boldsymbol{\Sigma_N}\mathbf{X}^T\mathbf{r}\boldsymbol{\Sigma_N}=(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}
为了得到新输入\mathbf{x}^{\prime}的输出r^{\prime}=\int(\boldsymbol{\omega}^T\mathbf{x}^{\prime})p(\boldsymbol{\omega}|X,\mathbf{r})\mathrm{d}\boldsymbol{\omega}

如果采用最大后验估计对参数做点估计,由于后验为高斯分布,则有\boldsymbol{\omega}_{MAP}=\boldsymbol{\mu}_N=\beta(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{a}

MAP等同于最大化后验的对数
\begin{align} \log p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto & \ \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega})+\log p(\boldsymbol{\omega}) \\ =&-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2-\frac{\alpha}2\boldsymbol{\omega}^T\boldsymbol{\omega}+c \end{align} \tag{b}

而同样作为点估计的极大似然估计,并没有利用先验信息。整体样本的对数似然为L(\boldsymbol{\omega}|X)\equiv \log (X|\boldsymbol{\omega})=\log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)+\log p(\mathbf{X}),其中第二项相对于参数是常数。
把似然的第一项展开成
\begin{align} \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)=&\log \prod_tp(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta) \\ =&-N\log(\sqrt{2\pi})+N\log\sqrt{\beta}-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2 \end{align}
最大似然估计要最大化对数似然,等价于最小化最后一项,即最小化误差的平方和的参数\boldsymbol{\omega}。误差平方和为E=\sum_{t=1}^N(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2=(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})^T(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})=\mathbf{r}^T\mathbf{r}-2\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{r}+\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{X}\boldsymbol{\omega}
关于\boldsymbol{\omega}求导并令其等于零,可得到
\boldsymbol{\omega}_{ML}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{c}


对于一般模型g(\mathbf{x}|\boldsymbol{\omega}),不便于像线性模型一样求解最大似然和最大后验估计。但思想是类似地,一样可通过最小化误差平方和E(X|\boldsymbol{\omega})=\sum_t[r^t-g(\mathbf{x}|\boldsymbol{\omega})]^2求得最小二乘估计子\boldsymbol{\omega}_{LSQ},来计算输入的输出r^{\prime}=g(\mathbf{x}^{\prime}|\boldsymbol{\omega}_{LSQ})
或采用最大后验作为参数估计,由(b)的形式可写出一个适用于一般函数的增广误差函数
E=\sum_t[r^t-g(\mathbf{x}^t|\boldsymbol{\omega})]^2+\lambda\sum_i\omega_i^2
该目标函数比误差平方和多了一项,在统计学中称之为岭回归。是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,使更为符合实际、更可靠的回归方法。对病态数据的拟合要强于最小二乘法。(对于线性模型来说,则避免(c)中X矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大。正如MAP的解(a)比ML的解(c)在对角线增加了阐述想\alpha,保证矩阵可逆。)

在《多层感知器》一节中的网络规模部分介绍的权重衰减(a),也有岭回归的形式,由第二项给每个\omega_i一个靠近0的趋势。它们的目的都是降低模型复杂度,是正则化方法。

尽管岭回归的方法减少\sum_i\omega_i^2,但并不强制单个\omega_i为0。即它不能用于特征选择,不能用于确定哪些x_i是冗余的。为此可使用L_1范数的拉普拉斯先验
p(\boldsymbol{\omega}|\alpha)=\prod_i\frac{\alpha}2\exp(-\alpha|\omega_i|)=(\frac{\alpha}2)^d\exp(-\alpha\sum_i |\omega_i|),而不是L_2范数的高斯先验。
对应的后验不再是高斯的,MAP估计通过最小化下式得到:
E_{lasso}(\boldsymbol{\omega}|X)=\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2+2\sigma^2\alpha\sum_i|\omega_i|
其中\sigma^2是噪声方差。这种方法做lasso(最小绝对值收缩和选择算子)回归


具有噪声精度先验的回归——MCMC抽样

前一部分假设噪声服从给定的正态分布,\epsilon \sim N(0,\frac1{\beta})。如果\beta也是未知的,那么也可以对它定义先验。同前文对高斯分布参数的贝叶斯估计一样,对精度\beta定义伽马先验p(\beta)\sim gamma(a_0,b_0)
进一步定义\boldsymbol{\omega}基于\beta的先验p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_0,\beta\boldsymbol{\Sigma_0})
如果\boldsymbol{\mu}_0=0\boldsymbol{\Sigma_0}=\alpha\mathbf{I},则如前一部分所讨论的。
参数\boldsymbol{\omega}\beta的共轭先验为正态-伽马先验:
p(\boldsymbol{\omega},\beta)=p(\boldsymbol{\omega}|\beta)p(\boldsymbol{\omega})\sim normal-gamma(\boldsymbol{\mu}_0,\boldsymbol{\Sigma_0},a_0,b_0)
可得后验p(\boldsymbol{\omega},\beta|\mathbf{X},\mathbf{r}) \sim normal-gamma(\boldsymbol{\mu}_N,\boldsymbol{\Sigma}_N,a_N,b_N)

其中\boldsymbol{\Sigma}_N=(\mathbf{X}^T\mathbf{X}+\boldsymbol{\Sigma_0})^{-1}
\boldsymbol{\mu}_N=\boldsymbol{\Sigma}_N(\mathbf{X}^T\mathbf{r}+\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0)
a_N=a_0+\frac N2
b_N=b_0+\frac12(\mathbf{r}^T\mathbf{r}+\boldsymbol{\mu}_0^T\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0-\boldsymbol{\mu}_N^T\boldsymbol{\Sigma}_N\boldsymbol{\mu}_N)

这里采用马尔科夫链蒙特卡洛抽样(MCMC)来得到贝叶斯拟合。首先从p(\beta)\sim gamma(a_N,b_N)中抽取一个\beta值,然后从p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_N,\beta\boldsymbol{\Sigma}_N)抽取\boldsymbol{\omega}
这样得到一个从后验p(\boldsymbol{\omega},\beta)中抽样的模型,通过抽取多个模型,并取这些模型的平均,作为全贝叶斯积分的近似


基函数或核函数的使用

对给定输入\mathbf{x}^{\prime},使用参数\boldsymbol{\omega}的MAP估计(a)来计算输出
r^{\prime}=(\mathbf{x}^{\prime})^T\boldsymbol{\omega}=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{X}^T\mathbf{r}=\sum_t \beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^tr^t
这是对偶表示,其中\boldsymbol{\Sigma}_N包含先验参数。如果像用支持向量机那样用训练数据表示参数,可以把预测输出写成输入和悬链数据的函数,我们可以把这表示为r^{\prime}=\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t
其中
K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^t \tag{d}

考虑到可以使用非线性基函数\phi(\mathbf{x})映射到新空间,在新空间中拟合线性模型(《核机器》)。这种情况下,作为线性核(d)的推广,其中的 d 维\mathbf{x}变为 k 维的\phi(\mathbf{x})
\begin{align} r^{\prime}=&\phi(\mathbf{x}^{\prime})^T\boldsymbol{\omega}\\ =&\sum_t\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)r^t\\ =&\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t \end{align}
其中,K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)\boldsymbol{\Sigma}_N^{\phi}=(\alpha\mathbf{I}+\beta\Phi^T\Phi)^{-1}\Phi\mathbf{X}映射后的数据矩阵。这是\phi(\mathbf{x})的空间中的对偶表示。

贝叶斯分类

在《监督学习——分类(基于判别式的方法)》中介绍的逻辑斯蒂判别式,对两类问题,假定线性可分,有P(C_1|\mathbf{x}^t)=y^t=sigmoid(\boldsymbol{\omega}^T\mathbf{x}^t)。伯努利样本的对数似然为L(\mathbf{r}|\mathbf{X})=\sum_tr^t\log y_t+(1-r^t)\log(1-y^t)。通过最大似然估计得到参数\boldsymbol{\omega}的估计。
在贝叶斯方法中,假定参数的高斯先验p(\boldsymbol{\omega})=N(\mathbf{m}_0,\mathbf{S}_0),而后验的对数为
\begin{align} \log p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})\propto & \ \log p(\boldsymbol{\omega})+\log p(\mathbf{r}|\boldsymbol{\omega},\mathbf{X}) \\ =&-\frac12(\boldsymbol{\omega}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\boldsymbol{\omega}-\mathbf{m}_0 )+\sum_t r^t \log y_t+(1-r^t)\log (1-y^t)+c \end{align}
这个后验分布不再是高斯分布,并且不能精确地积分。这里使用拉普拉斯近似

  • 拉普拉斯近似
    对某个分布f(x),首先找出f(x)的众数x_0,在拉普拉斯近似使用高斯函数q(x)来近似它,其中均值中心为x_0,方差由均值附近的f(x)的曲率给定。
    为了得到高斯的方差,考虑\log f(x)x=x_0处的泰勒展开式\log f(x)=\log f(x_0)-\frac12a(x-x_0)^2+\cdots
    其中a\equiv -\frac{\mathrm{d}}{\mathrm{d}x^2}\log f(x)|_{x=x_0}
    泰勒展开式的一阶线性项为0,因为在众数处的导数为0。
    忽略高阶项,由对数取指数,得到f(x)=f(x_0)\exp[-\frac a2(x-x_0)^2]。从指数部分可知方差为\frac1{a^2}。令由均值为x_0
    得到f(x)的高斯估计q(x)=\sqrt{\frac a{2\pi}}\exp[-\frac a2(x-x_0)^2]\sim N(x_0,\frac1a)


    在多元情况下,x\in R^d,类似地有
    \log f(\mathbf{x})=\log f(\mathbf{x}_0)-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)+\cdots
    其中\mathbf{A}是二阶导数的矩阵
    拉普拉斯近似为q(\mathbf{x})=\frac{|\mathbf{A}|^{1/2}}{(2\pi)^{d/2}}\exp[-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)]\sim N_d(\mathbf{x}_0,\mathbf{A}^{-1})

这样,根据多元情况的拉普拉斯近似,可估计类概率为P(C_1|\mathbf{x})=\int sigmoid(\boldsymbol{\omega}^T\mathbf{x})q(\boldsymbol{\omega})\mathrm{d}\boldsymbol{\omega},其中q(\boldsymbol{\omega})是对后验p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})的拉普拉斯近似。


模型的比较——贝叶斯方法

对给定数据集,可以用不同的模型去拟合它,每个模型有其各自的参数。以不同次数的多项式模型为例,不同的多项式对数据的拟合情况是不同的,存在过拟合和欠拟合的平衡问题。
本节对模型M假设先验,来对不同的模型进行比较。

对给定数据X(N个实例),给定模型M和参数\theta,数据的似然是p(X|M,\theta),那么在所有\theta上取平均,得到贝叶斯边缘似然(又称模型证据p(X|M)=\int p(X|\theta,M)p(\theta|M)\mathrm{d}\theta
其中p(\theta|M)模型 M 的参数先验假设
可以计算模型的后验p(M|X)=\frac{p(X|M)p(M)}{p(X)}。其中p(M)模型的先验假设

下面介绍如何利用模型的后验来选择模型。
对任意模型M,对来自M的所有可能的包含N个实例的数据集X_M,有\sum_{X_M}p(X_M|M)=1
因为对复杂模型而言,它的泛化能力强于简单模型,其能拟合的数据集也就明显多于简单模型。也就是说,对给定的数据X^{\prime},复杂模型的p(X^{\prime}|M)会较小。
如果有两个模型M_0M_1,则可以比较它们的后验
\frac{p(M_1|X)}{p(M_0|X)}=\frac{p(X|M_1)p(M_1)}{p(X|M_0)p(M_0)}
其中两个边缘似然的比\frac{p(X|M_1)}{p(X|M_0)}称作贝叶斯因子。如果两个模型的先验相等,则可直接通过贝叶斯因子选择后验较大的模型。

在贝叶斯方法中,也可不做模型选择,而是像参数的贝叶斯估计一样,平均各个模型的预测。用贝叶斯边缘似然加权,求得所有模型输出的加权和。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容