全概率公式和朴素贝叶斯

引子

【基础知识】：条件概率----设A,B是两个事件，且P(B)>0,则在事件B发生的条件下，事件A发生的条件概率（conditional probability)为：P(A|B)=P(AB)/P(B)

【基础知识】：乘法公式

1. 由条件概率公式得：P(AB)=P(A|B)P(B)=P(B|A)P(A) 即为乘法公式；

2. 乘法公式的推广：对于任何正整数n≥2，当P(A1A2...An-1) > 0 时，有：

P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1)

【全概率公式】概念

【公式定义】：如果事件组B1，B2，.... 满足

a. B1，B2....两两互斥，即 Bi ∩ Bj = ∅ ，i≠j ， i,j=1，2，....，且P(Bi)>0,i=1,2,....;

b. B1∪B2∪....=Ω ，则称事件组 B1,B2,...是样本空间Ω的一个划分

设 B1,B2,...是样本空间Ω的一个划分，A为任一事件，则：

上式即为全概率公式（formula of total probability)

【全概率公式的意义】当直接计算P(A)较为困难,而P(Bi),P(A|Bi) (i=1,2,...)的计算较为简单时，可以利用全概率公式计算P(A)。思想就是，将事件A分解成几个小事件，通过求小事件的概率，然后相加从而求得事件A的概率，而将事件A进行分割的时候，不是直接对A进行分割，而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分，即A=AB1+AB2+...+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi)，由加法公式得

P(A)=P(AB1)+P(AB2)+....+P(ABn) =P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)

【实例1】：某车间用甲、乙、丙三台机床进行生产，各台机床次品率分别为5%，4%，2%，它们各自的产品分别占总量的25%，35%，40%，将它们的产品混在一起，求任取一个产品是次品的概率。

解：设..... P(A)=25%*5%+4%*35%+2%*40%=0.0345

【实例2】：盒中有a个红球，b个黑球，今随机从中抽取一个，观察颜色后放回，并加上同色球c个，再从盒子中第二次抽取一球，求第二次抽出的是黑球的概率是多少？

【朴素贝叶斯】概念

【贝叶斯定理】：贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

贝叶斯公式

【研究意义】：人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计，这类推理称为概率推理。概率推理既是概率学和逻辑学的研究对象，也是心理学的研究对象，但研究的角度是不同的。概率学和逻辑学研究的是客观概率推算的公式或规则；而心理学研究人们主观概率估计的认知加工过程规律。贝叶斯推理的问题是条件概率推理问题，这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义

【贝叶斯分类】：Bayes 是一种统计学分类方法，它基于贝叶斯定理，它假定一个属性值对给定类的影响独立于其它属性点的值。该假定称作类条件独立。做次假定是为了简化所需计算，并在此意义下称为“朴素的”。

【运用场景】：对于属性值是离散的，并且目标label值也是离散的情况下。分别计算label不同取值的概率，以及样本在label情况下的概率值，然后将这些概率值相乘最后得到一个概率的乘积，选择概率乘积最大的那个值对应的label值就为预测的结果。

废话不多说，通过一个例子来熟知：

【实例1】：设某个公路经过的货车与客车的比例大约是2:1，货车中途停下来修车的概率是0.02，汽车中途停下来修车的概率是0.01，求若有一辆车停下来修车，是货车的概率是多少

解：设B={停下来修车}，A1={货车}，A2={非货车，也就是客车}；在有车停下来修车的前提下，是货车的概率表达式应为：P(A1|B)，显然不好求！那么根据贝叶斯概率公式做个变换：

P(A1|B) = P(B|A1)*P(A1)/P(B) 而 P(B)=P(B|A1)*P(A1) + P(B|A2)*P(A2)

其中： P(A1) = 2/3 (是货车的概率) P(A2) = 1/3(是客车的概率)

P(B|A1) = 0.02(是货车的前提下中途停下修车的概率)

P(B|A2) = 0.01(是客车的前提下中途停下修车的概率)

最后计算结果： 2/3*0.02/(2/3*0.02 + 1/3*0.01) = 0.80

.【实例2】发报台分别以概率0.6和0.4发出信号“∪”和“—”。由于通信系统受到干扰，当发出信号“∪”时，收报台分别以概率0.8和0.2收到信号“∪”和“—”；又当发出信号“—”时，收报台分别以概率0.9和0.1收到信号“—”和“∪”。求当收报台收到信号“∪”时，发报台确系发出“∪”的概率。

解：设A={收报台收到“U”}，设B1={发报台发出的是“U”}，B2={发报台发出的是“—”}

P(B1|A) = P(A|B1)*P(B1)/P(A); P(A) = P(A|B1)*P(B1) + P(A|B2)*P(B2)

P(B1|A)= (0.6*0.8)/(0.6*0.8+0.4*0.1)=0.923

【目标】：是预测苹果在给定属性的情况下是甜还是不甜【color=3,weight=3？】

数据表

color={0,1,2,3} weight={2,3,4};是属性序列，为离散型。sweet={yes,no}是目标值，也为离散型；

这时我们要预测在color=3,weight=3的情况下的目标值，计算过程如下：

P{y=yes}=2/5=0.4; P{color=3|yes}=1/2=0.5;P{weight=3|yes}=1/2=0.5; 故F{color=3,weight=3}取yes的概率为 0.4*0.5*0.5=0.1;

P{y=no}=3/5=0.6; P{color=3|no}=1/3P{weight=3|no}=1/3;故P{color=3,weight=3}取no为 0.6*1/3*1/3=1/15;

0.1>1/15 所以认为 F{color=3,weight=3}=yes;

看完解题过程，先别疑惑，来看下面公式：

贝叶斯分类万能公式

【朴素贝叶斯计算公式】---- 多个特征条件下的表达式

后验概率表达式

在朴素贝叶斯分类算法中，既可以独立的学习每个属性Ai在类别属性C下的条件概率P(Ai|C)，也可以独立学习每个属性Ai的概率，因该值为常数，可用归一化因子a来代替。

趁热打铁，再来一波【数据】：计算“不帅、性格不好、身高矮、不上进”该不该“嫁”？

数据表格

后验概率

转化后的表达式

根据上述公式，已经比较容易获得计算结果；结果比较惨，就不写具体值了......

【朴素贝叶斯】Java实现---- 处理测试用例数据

学习完上面的例子之后，就到了使用阶段了。变化一下思路，首先看一个假设：

假设，我们有N组参数，每组参数最终都跟着一个分类结果数值（这个数值是人为标记的），这种场景的表现形式是不是特别像测试数据的日志+结果啊，我们在脑海里将这N组数据勾画成一张表，是不是就是上面预测苹果甜不甜的分类模型啊！这个模型能干什么呢？能做预测！这就是朴素贝叶斯能带给我们的福利。废话不多说，直接上代码！

1. 首先读取训练数据集合：

假设数据集合

获取数据列表

2. 将训练集按最后一个值进行分类

按最后一列属性分类

3. 在训练数据的基础上预测测试元组的类别，testT（测试数据集合）的各个属性在结果集里面出现的概率相乘最高的，即是结果

指定属性在训练集中出现的频率 * 分类占比 = p(x|yi)*p(yi)

4. 主函数调用

总结一下：代码写的比较冗余，数据结构获取这部分的设计比较笨重；贝叶斯的最终核心目标是算一些列的属性在整个数据集合中的占比问题；连乘最后处理得结果。该考虑以类为最小单元，祛除复杂的运算逻辑。

延展：获取数据结构前，可以添加文本的拆分、分析等功能模块，以兼容文本分类场景。

【朴素贝叶斯】使用方法--- 文本分类处理模型

【朴素贝叶斯】分类模型的优势

1)算法逻辑简单，易于实现；

2)分类过程中时间、空间开销小；

3)算法性能稳定，对于不同的数据特点其分类性能差别不大，即模型健壮性比较好。

应用范围：

贝叶斯定理广泛应用于决策分析。先验概率经常是由决策者主观估计的。在选择最佳决策时，会在取得样本信息后计算后验概率以供决策者使用。

最后编辑于：2018.07.17 19:42:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

全概率公式和朴素贝叶斯

推荐阅读更多精彩内容