【算法】朴素贝叶斯分类

朴素贝叶斯

朴素贝叶斯分类算法是基于两种假设的一种分类算法：

每一个特征同样重要
每一个特征之间相互独立

贝叶斯定理

$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$
证明：
条件概率公式
<center>
$P(A|B) = \frac{P(AB)}{P(B)} ...式(1)$
</center>
同理
<center>
$P(B|A) = \frac{P(AB)}{P(A)} ...式(2)$
</center>
联立可以得到
<center>
$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$
</center>

贝叶斯策略理论

设 $P1(x)$ 表达 $x$ 属于类别一的概率， $P2(x)$ 表达 $x$ 属于类别二的概率：

若 $P1(x) >P2(x)$ ，那么属于类别一
若 $P1(x) <P2(x)$ ，那么属于类别二

但是贝叶斯决策论真正进行比较的是 $P(c_1|x)$ 和 $P(c_2|x)$ ；通过贝叶斯定理我们可以得到计算该条件概率的方法因此

若 $P(c_1|x)>P(c_2|x)$ ，那么属于类别 $c_1$
若 $P(c_1|x)<P(c_2|x)$ ，那么属于类别 $c_2$

贝叶斯分类流程

基于之前的理论我们正式定义一下朴素贝叶斯分类的流程：
设：

$x=\{a_1,a_2,...a_m\}$ 为一个待分类项， $a_i$ 为其特征属性，一共有 $m$ 个
$C=\{y_1,y_2,...,y_n\}$ 表示类别的集合
计算 $P(y_1|x),P(y_2|x),...,P(y_n|x)$
若 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$ ,则 $x \in y_k$

贝叶斯分类的关键在于求出 $P(y_1|x),P(y_2|x),...,P(y_n|x)$ ，这也是朴树贝叶斯算法的训练过程。
我们分别计算：
<center>
$P(a_1|y_1),P(a_2|y_1),...,P(a_m|y_1)$
$P(a_1|y_2),P(a_2|y_2),...,P(a_m|y_2)$
$...$
$P(a_1|y_n),P(a_2|y_n),...,P(a_m|y_n)$
</center>
基于贝叶斯定理我们可以得到
$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$
分母对于所有类别来说可以看成一个常数，因此我们只需考虑分子，基于先前的假设，所有特征独立可以得到
$P(x|y_i)=P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)=\Pi_{j=1}^mP(a_j|y_i)$
合并可以得到：
$P(x|y_i)P(y_i)=P(y_i)\Pi_{j=1}^mP(a_j|y_i)$

数据处理

若属性的取值为离散值我们很容易计算，就直接统计出训练样本中各个属性在每个样本中出现的频率就可以计算出 $P(a|y)$ 。如果属性的取值为一个连续值的时候我们就要对其进行处理。
假定其值满足高斯分布:
$p(x_i|y_j)=\frac{1}{\sqrt{2\pi}\sigma_{i,j}}e^{-\frac{(x-\mu_{i,j})^2}{2\sigma_{i,j}^2}}$
这样我们只用计算出训练样本中类别 $y_i$ 中特征 $a_j$ 的均值和标准差，带入上式即可。
在实践中我们常通过取对数的方式来将连乘转化为连加，以避免数值的下溢。
需要注意的是若某个属性值在训练集中没有与某个类同时出现过，则计算出来的概率值为0,则会将其他属性携带的信息给抹去，因此我们需要用到“拉普拉斯修正”，来进行平滑。
设 $N$ 表示训练集 $D$ 中可能的类别数， $N_i$ 表示第 $i$ 个属性可能的取值数
$P(c)=\frac{|D_c|+1}{|D|+N}$
$P(x_i|c) =\frac{|D_{c,x_i}|+1}{|D_c|+N_i}$

总结

优点：在数据较少的情况下仍然有效，可以处理多类别问题
缺点：对于输入数据的准备方式较为敏感
适用数据类型：标称型数据

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342