LDA独立性假设太强了,经常不是很work,而且跑起来太慢。但是数学上比较完备,模型漂亮。工程上可以用PLSA
LDA的独立性假设不算很强吧,毕竟是条件独立。主要的假设其实是可交换性。由de Finetti's theorem,其实隐含变量下的条件独立性假设就不是很强了(虽然存在不意味着能找到)。
我这边使用LDA很爽快,虽然说优化的过程很折磨人,我们公司使用LDA模型对全网文本建立了分类模型
LDA(latent dirichlet allocation) 应该会好很多。LSI 虽然很简单,但是有一个不太合理的假设是各个topic是互相垂直的向量,结果是得到的类比较难有明确的意义。LSI用来降维因该还行。
另外有一种LDA(Linear discriminant analysis)效果应该比PCA好些,但是需要有标注的数据
LDA的效果实际中看来更好,但LDA的收敛速度会比LSA慢。LSA通常是用其他算法的预处理分类中,很少单独使用。
LDA从模型角度老说,是无监督算法(聚类算法),但是如果仅仅把LDA作为聚类模型来使用,我觉得就有点杀鸡用牛刀的感觉了,我对LDA的看法是:天生的适合大数据环境下的文本分类算法
PLSI不错,LDA适合发论文