不管是分类问题还序列问题,很多都是通过计算P(y|x) 概率的大小,来获得最优的预测结果。
而生成模型:对x和y的联合分布p(x,y)进行建模,然后通过贝叶斯公式来求得p(y|x), 最后选取使得p(y|x))最大的yi。
因此会对数据分布做一定的假设,如朴素贝叶斯假设在给定yy的情况下各个特征之间是条件独立的,HMM。假设条件成立时,需要较少的数据就能取得不错的效果。且因为有假设条件,一般计算时只需要统计即可。添加新的类别时, 生成式模型不需要全部重新训练。
判别模型:直接对p(y|x)进行建模。一般是变为凸优化的问题,需要大量的数据。有新的类别,需要重新训练。以对输入数据xx进行预处理, 使用ϕ(x)来代替xx、。
http://www.cnblogs.com/kemaswill/p/3427422.html