统计学习方法笔记(第四章个人笔记)

统计学习方法笔记(第四章个人笔记)

标签: 统计学习方法


朴素贝叶斯法


描述:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,对于给定的训练数据集,首先基于特征条件独立假设学习输入与输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出,后验概率最大的输出y。本章叙述朴素贝叶斯法,包括朴素贝叶斯法的学习分类,朴素贝叶斯法的参数估计算法。


1.1.1 基本方法

  1. 对于输入空间$x∈χ$ 且$x$为一个n维随机向量,输出为类标记$y∈γ$ ,其中$y$ 为随机变量,$P(X , Y)$是X和Y的联合概率分布,对于训练数据集:
    $$T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$$
    由$P(X,Y)$独立同分布产生

朴素贝叶斯法通过训练数据集学习联合概率分布$P(X,Y)$。具体是学习以先验概率分布以及条件概率分布。
其中先验概率分布为:
$$P(Y=c_k), k=1,2,\dots,K$$
条件概率分布:
$$P(X=x|Y=c_k)=P(X{(1)}=x{(1)},\dots,X{(n)}=x{(n)}|Y=c_k), k=1,2,\dots,K$$

于是可以学习到联合概率分布P(X,Y)

但是条件概率分布$P(X=x|Y=c_k)$有指数级数量的参数,其估计实际是不可行的,事实上,假设$x^{(i)}$可去值有$S_j$个,$j=1,2,\dots,n,Y$可取值有$K$个,那么参数个数为$K\prod_{j=1}^nS_j$

2.朴素贝叶斯对条件概率分布做了条件独立的假设。具体的,条件独立假设是:

$$P(X=x|Y=c_k)=P(X{(1)}=x{(1)},\dots,X{(n)}=x{(n)}|Y=c_k)=\prod_{j=1}nP(X{(j)}=x^{(j)}|Y=c_k)$$

所以朴素贝叶斯法实际上学习到生成数据的机制,所以数据生成模型条件独立假设说明用于分类的特征在类确定的条件下都是条件独立的(这一假设会使得该方法更简单,不过有时候会牺牲一定的分类准确率)

3.下面来看看贝叶斯分类器的生成

对于给定的输入向量,通过学习到的模型计算后验概率分布$P(Y=c_k|X=x)$,后验分布中最大的类作为的输出结果,根据贝叶斯定理可知后验概率为:


后验概率

由于下面的分布是想用的,于是有最大概率公式:

最大概率公式

1.2朴素贝叶斯法的参数估计

上面已经给出了对于输入$x$输出为$y$,

对此可应用极大似然估计法来估计相应的概率。

先验概率:
$$P(Y=c_k)=\frac{\sum_{i-1}^NI(y_i=c_k)}N, k=1,2,\dots,K$$

设第j个特征$x{(i)}$集合为${a_{j1},a_{j2},\dots,a{jS_j}}$条件概率为$P(X{(j)}=a_{jl}|Y=c_k)$的极大似然估计为:
$$P(X{(j)}=a_{jl}|Y=c_k)=\frac{\sum{N}{i=1}I(x_i^{(j)}=a{jl},y_i=c_i)}{\sum_{i=1}^{N}I(y_i=c_k)}$$


感觉挺抽象的,还是直接上例子吧(书P50例4.1)
:试由下表的训练数据学习一个朴素贝叶斯分类器并确定$x=(2,S)T$的类标记$y$,表中$X{(1)},X^{(2)}$为特征,$Y$为类标记。

表格

先验概率:


先验概率

后验概率:


条件概率

条件概率

......此处略去另外用不到的,实际上还是要算(详情见书上)

对于给定的$x=(2,S)^T$计算到


最后结果

最大,所以$y=-1$


1.3贝叶斯估计

背景:由于用极大似然估计可能会出现所要素及的概率值为0的情况。这时会影响到后验概率的计算结果,是分类产生偏差,解决这个问题的方法是采用贝叶斯估计,具体的,条件概率的贝叶斯估计是:
$$P_{\lambda}(X{(j)}=a_{jl}|Y=c_k)=\frac{\sum{N}{i=1}I(x_i^{j}=a{jl},y_i=c_k)+\lambda}{\sum^{N}_{i=1}I(y_i=c_k)+S_j\lambda}$$

式子中,$\lambda≥0$等价于在随机变量各个取值的频数上赋予一个正数$\lambda>0$.特殊得当$\lambda=0$时时极大似然估计,取$\lambda=1$时,称为拉普拉斯平滑。

另外上式的先验概率的贝叶斯估计是:
$$P_\lambda(Y=c_k)=\frac{\sum^N_{i=1}I(y_i=c_k)+\lambda}{N+K\lambda}$$

同样,例题在P52页,和上面的类似,就是多加了这几个参数,此不赘述。

代码将稍后奉上,请稍等。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,045评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,114评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,120评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,902评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,828评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,132评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,590评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,258评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,408评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,335评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,385评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,068评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,660评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,747评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,967评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,406评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,970评论 2 341

推荐阅读更多精彩内容