最大似然估计和贝叶斯估计

几个基本概念:
a. likelihood就是“似然”,可以理解为概率乘积。
b. 判别函数:判断某个特征矢量属于哪个类别的函数
c. P: 离散变量的概率 p:连续变量的概率
d. 独立同分布 independent and identically distributed 缩写为i.i.d.
e. 充分统计量:参数能够充分地毫无遗漏地反映出数据X 的分布特点。简单的说,知道了充分统计量我们就可以扔掉样本,因为样本里的信息全都被包含在充分统计量里面。再简单的说,他就相当于无损压缩。(此句话来自知乎)

最大似然估计

  1. 在贝叶斯决策定理中,我们感兴趣的是给定x下的类别w_i的后验概率。
    P(w_i|x) = \frac{p(x|w_i)P(w_i)}{\int_jp(x|w_j)P(w_j)}
    从这,对于分类任务,我们得到基于判别函数的决策定理。
    g(x) =P(w_1|x) -P(w_2|x) >c
    p(x|w_1)P(w_1) -p(x|w_2)P(w_2) >c
    这时,我们需要知道先验概率P(w_i)以及条件概率分布p(x|w_i)。在实际生活中,分布的具体形式很难知道,我们需要通过数据去估计它们。
    我们有一些样品,D = {(x_1,y_1),\ldots,(x_n,y_n)},特征向量x_i\in R^d包含数据的一些特征,对应的标签y_i\in{w_1,\ldots,w_c}指的是对应的类别。
    先做重要的假设:假设样品之间独立被取出,也就是对于任意的i,j都有p(x_i,x_j) =p(x_i)p(x_j)。又假设, 对于y_i = w_c的任意样品x_i都是从同一个分布P(x|w_c)中取出的。也就是说,样品都是独立同分布的。
    好了,现在开始估计了。
    估计先验概率是很容易的,因为每个概率都只是一个数。
    P(w_i|D) = \frac{1}{n}\sum_{i=1}^n\delta(y_i =w_i)
    条件概率分布p(x|w_j)是在R^d上连续的概率密度,在高维很难算。我们通过假设低维参数分布{p_\theta}_j(x|w_j) = p(x|w_j,\theta_j)来简化对条件概率的估计,例如高斯分布。
    对于分布的类别来说,参数\theta_j是充分统计量,也就是说分布仅仅被这些参数决定。
    对于一个单一的类别w,假设D = \{x_1,\ldots,x_n\}是这个类别下的被选的数据。
    以下函数可以解释为,给定数据D下的分布参数\theta的似然。
    p(D|w,\theta) = p(D|\theta) = \prod_{i=1}^np(x_i|\theta)
    最大似然定律选择使似然最大时的参数。
    实际上,更方便的是最大化 log likelihood。
    l(\theta) = lnp(D|\theta) = ln\prod_{i=1}^np(x_i|\theta) = \sum_{i=1}^nlnp(x_i|\theta)
    最大值估计\hat {\theta}^{ML} = argmax_{\theta}p(D|\theta) = argmax_{\theta}l(\theta)= argmin_{\theta}-l(\theta)
    如果l是光滑函数,也就是l两次可微,那么得到局部最大值的条件是导数为0。导数是偏微分向量:
    \nabla_l(\theta) = (\frac{\partial l(\theta)}{\partial \theta_1},\ldots,(\frac{\partial l(\theta)}{\partial \theta_p})^T
    为了辨别得到的是本地最小值还是本地最大值,要判断两次微分后的矩阵(Hessian)是正是负。
  2. 多变量的高斯分布
    假设样本从多变量的高斯分布中取出,那么判别函数有:
    p(x|\mu,\Sigma) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]
    均值\mu和协方差参数\Sigma是高斯分布的充分统计量。
    可以得出,数据的似然:
    p(D|\mu,\Sigma) = \prod_{i=1}^n\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]
    对数化:
    l(\mu,\Sigma) = \sum_{i=1}^n-\frac{1}{2}ln[(2\pi)^d|\Sigma|] -\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)
    \mu求偏微分得:
    \frac{\partial l (\mu,\Sigma)}{\partial \mu} = \sum_{i=1}^n\Sigma^{-1}(x_i-\mu)
    在最大值处,必须满足:
    \sum_{i=1}^n\Sigma^{-1}(x_i-\hat \mu^{ML}) = 0
    可得:
    \hat \mu^{ML} = \frac{1}{n}\sum_{i=1}^nx_i
    这个数就是样本的均值。
    注意:\mu不是\Sigma的函数,所以我们可以接着求\Sigma
    \hat \Sigma^{ML} = \frac{1}{n}\sum_{i=1}^n (x_i-\hat \mu^{ML})(x_i-\hat \mu^{ML} )^T
    这个数就是样本的方差。

现在,我们得到了在高斯条件分布下的贝叶斯决策器:
g(x) =P(w_1|x,D) -P(w_2|x,D) >c
\iff p(x|w_1,\hat \theta_1)P(w_1,D) -p(x|w_2, \hat \theta_2)P(w_2,D) >c
\iff p(x|w_1,\hat \mu_1^{ML},\hat \Sigma_1^{ML})P(w_1,D) -p(x|w_2, \hat \mu^{ML},\hat \Sigma_2^{ML})P(w_2,D) >c
3.最大似然估计的偏差
什么是一个好的估计器?评判标准:均方根误差
MSE[\hat \theta] = E[(\hat \theta -\theta)^2]
\quad =E[\hat \theta^2] +\theta^2 - 2E[\hat \theta]\theta
\quad =E[\hat \theta^2] -E^2[\hat\theta]+E^2[\hat\theta] +\theta^2 - 2E[\hat \theta]\theta
\quad =E[(\hat \theta-E(\hat \theta))^2] +(E[\hat \theta] - \theta)^2
\quad =Var(\theta) + Bia(\hat \theta,\theta)^2
可以看出,最大似然估计对均值的估计是无偏的:E[\hat\mu^{ML}] = \mu
但是,它对方差的估计是有偏差的:E[\hat\Sigma^{ML}] = \frac{n-1}{n}\Sigma
纠正过的估计器\hat \Sigma^{UB} = \frac{n-1}{n}\Sigma是无偏的。

贝叶斯估计

1.最大似然估计与贝叶斯估计的区别:
最大似然估计是假设参数是固定的,尝试用数据来估计。贝叶斯估计则把参数当成是随机变量,假设先验概率基于领域知识(domain knowledge)。
2.最大后验分布MAP
贝叶斯算法是基于最大后验分布来估计参数。
p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}
\quad =\frac{p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta)d\theta}
\quad \propto p(D|\theta)p(\theta)
因为\int p(D|\theta)p(\theta)d\theta不影响最大值,我们将它舍掉。
\hat \theta ^{MAP} = argmax_{\theta} p(\theta|D)
\quad = argmax_{\theta} p(D|\theta)p(\theta)
\quad = argmax_{\theta} ln[p(D|\theta)p(\theta)]
\quad = argmax_{\theta} ln[p(D|\theta)]+ln[p(\theta)]
现在,判别函数可以写为
g(x) = p(x|w_1,\hat \theta ^{MAP})P(w_1,D) -p(x|w_2, \hat \theta ^{MAP})P(w_2,D) >c

  1. 全贝叶斯 Full Bayesian
    Full Bayesian 与Bayesian是不同的。全贝叶斯使用指定的先验分布,也就是利用参数的整个后验分布p(θ| D),我们可以边缘化特定参数θ对估计类别条件密度的影响。而经验贝叶斯允许通过使用数据来估计先验分布。
  2. 如果先验分布不知道,那么:
    a. 具有均匀先验的最大后验分布方法简化到最大似然估计。
    b. 先验可以通过具有很大值的协方差的高斯先验来近似。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容