附录B:机器学习基础之最大似然估计


时间:2018-08-20 作者:魏文应


一、说明

上一节,我们说过,似然这个词是从 likelihood这个词直译 成中文的。有学者认为译得不好,词不达意。似然,文言文中,似就是像,然就是样子,似然就是像什么什么的样子。而likelihood这个单词,英文中是可能性的意思,其实它说的就是 可能性的大小。所以,似然在这里,就是指概率的意思,最大似然估计 就是 最大概率估计。那么,我们要对什么事件发生的概率进行估计呢?这就是本节要讨论的内容。

二、预备知识

说明最大似然估计之前,我们需要一些预备知识。这些预备知识都 比较简单,但对于普通程序员来说,应该忘得差不多了。我们下面来回忆一下,相对于教科书,我讲的内容是不严谨的,只是说出是什么意思就够了。

随机变量

这个比较简单,就是 随机发生的事情。比如,你约一个女孩子吃饭,一共约了5次。成功的次数有下面6种情况:X = {0,1,2, 3, 4, 5}。这里的 X 就是 随机变量,它的值可以是 {0, 1, 2, 3, 4, 5} 中的任意一个。

离散型随机变量

离散,顾名思义,就是 分离的、散开的。比如 {1, 2, 3, 4,5} 就是离散的,{0 < x < 10} 这个 x 的取值就是连续的:

离散型随机变量

分布律

分布律,也就是 分布规律。我们用 \{X = x_k\} 表示一个事件,比如下面式子:

P\{X = x_k\} = p_k

这个式子的意思就是,发生 X = x_k 这件事的概率是 p_k 。上面我说,你约女孩子5次,成功的次数有 {0, 1, 2, 3, 4, 5} 这六种情况,x_k 可取的就是这些值。上面式子可以反映 x_k 取不同值时概率 p_k 的情况,也就是分布情况,正因为如此,这个式子被称为 X 的分布律。说白了,一件事情会发生各种情况,每种情况发生的概率用式子表示出来,这个式子其实就是根据概率分布情况统计出来的规律。只要能表示概率发生的规律,你 用表格表示 出来也是可以的,也可以叫做 X 的分布律。

分布函数

分布律是用一个式子表示概率分布的情况,其实我们也可以 用一个函数来表示概率的分布情况,我们把这个函数叫做 分布函数。不过,分布函数的定义有点不走寻常路:

F(x) = P\{X \leq x\}

这是什么意思呢?一件事情发生有很多种可能,我们把这些可能的情况进行依次编号,从小到大排列这些编号,你指定一个编号 x ,有一些情况的编号小于等于x把这些事件发生的概率都加起来,得到的和就是 分布函数 F(x) 。还拿你约女孩子5次这件事来说,成功的次数有 {0, 1, 2, 3, 4, 5} 这六种情况,比如 F(1) 表示小于等于1次的概率,这个概率就是: F(1) = P\{X=0\} + P\{X=1\}

概率分布图

上面是关于你约会的概率分布函数,它假设了每种情况发生的概率为\frac{1}{6}

数学符号 \Delta x\mathrm{d}x

有时候可能会忘记 \Delta x\mathrm{d}x 是什么意思。这两个的意思都是一样的,都表示 差值

\Delta x = \mathrm{d}x = x_2 - x_1

比如,函数 y = f(x) 求导以后的导函数,可以表示为:

y\prime = f\prime(x) = \frac{\Delta y}{\Delta x} = \frac{ \mathrm{d}y } { \mathrm{d} x} = \frac{ \mathrm{d}f(x) } { \mathrm{d} x} = \lim _{\Delta x \rightarrow 0} {\frac{f(x + \Delta x) - f(x)}{\Delta x}}

定积分

定积分用来干嘛的?你可以把它看做是用来求面积的,虽然它远远不止用于求面积。比如下面的图:

使用定积分计算面积

曲线 y = f(x) 、坐标 x 轴构成、 直线 x = a、直线 x = b 围成上面 阴影部分的面积。为了求这个面积,我们随便定义一个公式,写法如下:

S = \sum_{i=1}^n f(\xi_i)\Delta x = \int_{a}^b f(x) \mathrm{d} x

首先,我们把阴影部分面积看作是由很多 矩形组成 的。用 f(\xi_i) 表示矩形的高,用 \Delta x 表示矩形的宽,宽乘以高就是其中一个矩形的面积 f(\xi_i)\Delta x,把所有矩形都加起来,就是阴影面积 \sum_{i=1}^n f(\xi_i)\Delta x 。如果有无数个矩形,不断地细化,使得矩形顶部接近曲线 y = f(x),这样,我们就可以用 f(x)\mathrm{d} x 来替代 f(\xi_i)\Delta xf(x) 就是高 f(\xi_i)\mathrm{d}x 就是宽 \Delta xx 的范围就是 (a, b)\int_{a}^b 表示从 a 的位置开始,面积不断相加,直到 b 的位置为止。这时你已经知道什么是定积分了,但 怎么方便地计算出来 的呢?总不能老是这么一个一个加吧!下面我们来看一个矩形的面积大小:

\Delta S = f(\xi_i)\Delta x = f(x)\mathrm{d}x

把上面这个公式写成下面形式:

f(x) = \frac{\Delta S}{\mathrm{d} x } = \frac{\Delta S}{\Delta x}

上面这个公式,是不是很眼熟? \frac{\Delta S}{\Delta x} 这个就是 导数的定义,高中大家就学过了。这就是说,f(x) 是某个函数求导以后得到的:

F \prime { (x) } = \frac{\mathrm{d}F(x)}{\mathrm{d} x} = f(x) = \frac{\Delta S}{\Delta x}

看上面式子,\mathrm{d}F(x) = \Delta S 。所以,上面阴影部分的面积,在 a 到 b 之间:

S = F(b) - F(a)

因为 f(x) 是由 F(x) 求导 , 所以把 F(x) 称为 f(x)原函数 。也就说,只要求得 f(x) 的原函数 F(x) ,就可以求得不定积分的值了,也就是阴影部分的面积:

S = \int_{a}^b f(x) \mathrm{d}x = F(b) - F(a)

上面公式就是 不定积分的计算方法(牛顿-莱布尼茨公式)。但问题来了,怎么找到 f(x) 的原函数 F(x) 呢?我们知道,常数项求导以后,就没有了,比如 y = 2x^2 - 1 ,求导以后得到 y \prime = 4x ,那个 1 就没有了,也就是说:

f(x) = ( F(x) + C ) \prime

F(x) + C 这个也是 f(x) 原函数,不过数学上,给它起了一个名字,叫做 不定积分。原函数 F(x) + C 叫做 f(x)不定积分 。还把它写成下面这种形式:

F(x) + C = \int f(x){\mathrm{d}x}

事实上,定积分计算不需要不定积分的常数项,你看:

(F(x_2) - C) - (F(x_1) - C) = F(x_2) - F(x_1)

压根没有常数 C 什么事。正常情况下,我们都是根据经验,求得原函数的。比如:sin (x) 求导可以得到 \cos (x) ,那么 \cos (x) 的原函数就 \sin (x) 。数学上应该有一些方法,可以计算得到原函数,我们不深究,用到了你查一查就知道了。

概率密度

讲概率密度前,我们先说 连续随机变量。日常生活中,比如你的体重是71kg,但真的是71kg吗?可以这么说,绝对不是71kg,它可能是71.0001kg,也可能是71.002kg。所以,可以说 P{体重 = 71kg} = 0 。 但你可以说你的体重在 70kg 到 72kg 之间,这个概率就非常大,因为你用秤称得71kg嘛。对于体重这种 连续的变量,我们一般估算的是它在 某个范围的概率值,而不关心具体某个具体值发生的概率值。我们说,分布函数是从左到右把各种情况发生的概率加起来,加到你指定的x_n那个位置为止:

F(X) = P(x_1) + P(x_2) + \cdots + P(x_n)

我们用 条柱的面积 表示 概率的大小。图中的F(X)函数反映的是,从左边往右,把一个个条柱面积相加得到的和的变化曲线。最终,把所有可能的概率加起来,概率和 F(X) = 1。把概率P平滑处理了以后,就是 概率密度f(x)了,阴影部分的面积,就是全部概率的和,值为1。

概率密度

这么说,计算分布函数 F(X) ,就是将阴影部分面积加起来。那阴影部分面积怎么计算?上面讲了不定积分,不定积分公式可以计算这种不规则的图形的面积:

F(X) = \int_{-\infty}^x f(x)dx = F(x) - F(-\infty)

f(x)F(X) 的导数,我们把它叫做 F(x)概率密度 。。生活中,人口密度反映了各个地区人口分布情况,知道哪个地方人口比较集中,哪个地方人口比较稀疏。同样的,概率密度直接反映了概率的分布情况,在某个x 区间,f(x) 的值越大,说明这个区间发生某件事的概率越大。

如果你想求在某个区间内,发生某件事的概率,那么就是:F(X_n) - F(X_{n-1}) 。对应于上面 概率密度函数f(x) 图中的分红色区域,这区域的面积,就是发生在 (X_n,X_{n-1}) 这个区间的概率。

三、

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,783评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,396评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,834评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,036评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,035评论 5 362
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,242评论 1 278
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,727评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,376评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,508评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,415评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,463评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,140评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,734评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,809评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,028评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,521评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,119评论 2 341

推荐阅读更多精彩内容