LDA 原理说明

LDA为latent Dirichlet allocation的简称,是一个生成式模型,是一种主题模型,无监督度学习方法。其基本假设是一篇文档是一个词袋,由多个词组成,与词的顺序无关,它可以有多个主题(topic),并且文档中的词都和这些主题相关。这里使用sparse dirichlet的原因是,一个主题中的词的概率分布是被修剪过得,所以仅有一小部分词的概率较大,这就和实际场景更加贴近

先定义几个简写表示:
① 词袋表示为D,词袋中有V个词,里面有M篇文档,每个文档的长度为Ni(文档中含有N个词);
② α为每个文档的主题分布的先验dirichlet分布的参数;(这里简单说明一下dirichlet分布,见文章最后)
③ β为每个主题词分布的先验dirichlet分布的参数 ;
④ Θi文档i的主题分布,为多项式分布,但受到参数为α的Dirichlet先验分布控制;
⑤ φk为主题k的词分布,k∈[0,K],为多项式分布,但受到参数为β的Dirichlet先验分布控制;
⑥ ωij为具体的词,这是和①中的已知量,其他的均为变量;
⑦ zij为第i篇文档的第j个词的主题;

统计说明如下:

从dirichlet分布α中取样生成文档i的主题分布Θi(Θi~Dir(α),α<1)

从主题k的多项式分布φk中取样生成的文档i的第j个词的主题zij

从dirichlet分布β中取样生成主题词zij的词语分布φzij

从词语的多项式分布φzij中重采样最终生成词语ωij

那么,模型的联合分布(生成词w的概率)为:

image.png

最终,文档i的单词分布集对Θi、φ求积分,对zij求和,(因为有一篇文档假设由K个主题组成,每个主题k满足多项式分布,并且文档包含j个词)得到:

image.png

根据p(ωi|α,β)的最大似然估计,最终可以通过EM/吉布斯采样估计出模型中的参数。

而在实践中具体步骤如下:

对文档中的所有词遍历一遍为其随机分配一个主题(zij),即zij符合mult(1/K),将文档i中k主题出现的次数、文档i中主题数量和、k主题对应的某个词的次数、主题k的总词数,这4个变量都加1。
之后,开始重复迭代寻优。

例如,文档i的词ωij对应的主题为k,根据LDA中topic sample的概率分布sample出新的主题,更新对应的上述4个变量分布加1

迭代完成后,输出主题-词参数矩阵φ和文档-主题矩阵Θ

beta分布简介

beta分布的x∈[0,1],是实数,概率密度为x(α-1)(1-x)(β-1),其中α,β>0,这和bernoulli 分布形式上类似,但是bernoulli的x取值为0或1。

当选择不同α和β时,beta分布的pdf为:

说明:

pdf为连续型变量的概率密度函数

image.png
image.png

beta分布的pdf为:

image.png

dirichlet分布简介

beta分布是针对一个x变量,dirichlet分布是针对多个随机变量,通常标记为Dir(α),表示连续多元概率分布,参数α>0,是beta分布的扩展,通常被用于贝叶斯统计中的一种先验分布。

对于两个随机变量(k=2)的pdf分布如下图:

image.png

dirichlet分布的pd如下所示:

image.png

共轭:假定一个先验分布A,将该先验分布的参数带入另外的一个分布中,得到后验证分布,如果该后验分布和该先验分布有相同的形式,则称为共轭(conjugacy)。

beta分布是bernoulli(二项式分布)的共轭先验分布为共轭,dirichlet为multinomial(多项式分布)的共轭先验分布。

参考链接:

<u>https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation</u>

https://blog.csdn.net/MeituanTech/article/details/80804170

wiki中文版

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容