记得之前在一次网易的笔试中,完全忘记了朴素贝叶斯的计算方法,这次决心要好好看一看,争取一遍就记住!
朴素贝叶斯是典型的生成模型,因此我们要估计的是X和Y的联合概率分布P(X,Y),估计联合概率分布,可以用我们之前学到的条件概率,即
P(X=x|Y=ck) = P(X=x,Y=ck) / P(Y=ck)。这里,我们可以直接得到的就是P(Y=ck),这被称为先验概率,在使用极大似然估计的情况下,我们可以认为样本集中每类出现的概率作为P(Y)的值,而P(X|Y)是随着X的特征数以及每种特征的取值的增加而增加的,假设有4个特征,没种特征有5个取值的话,那么X的可能取值有4^5种,这样的量级是指数级增加的,我们根本不可能直接估计,那么该如何估计呢??朴素贝叶斯算法给出了一种近似的答案:
这里用到的假设是条件独立性假设,个人理解就是X中每一维度的特征独立影响Y的取值,X的特征之间不会对Y产生交叉影响。
所以,根据条件独立性假设,在给定一个样本x的时候,我们可以估计它属于每一类的概率,从而选择概率最大的一种类别作为他的类别判定:
还有一个问题,我们为什么通过将实例x归类为后验概率最大的类中,就是期望风险最小化呢?