统计学习方法——修炼学习笔记20:潜在狄利克雷分配

潜在狄利克雷分配LDA,作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展。在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

LDA模型是文本集合的生成概率模型
假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示。
特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。
先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象。

LDA的文本集合的生成过程如下:
image.png

LDA模型是含有隐变量的概率图模型。
模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量
文本的每个位置的单词是观测变量
LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样和变分EM算法。前者是蒙特卡罗法,后者是近似算法。

一、狄利克雷分布

1、分布定义

(1)多项分布

多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。

定义
image.png

当试验的次数n为1时,多项分布变成类别分布。
类别分布表示试验可能出现的k种结果的概率。

(2)狄利克雷分布

狄利克雷分布是一种多元连续随机变量的概率分布,是贝塔分布的扩展。
在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。

定义
image.png
image.png
(3)二项分布和贝塔分布

二项分布是多项分布的特殊情况
贝塔分布是狄利克雷分布的特殊情况

二项分布是指如下概率分布。X为离散随机变量,取值为m,其概率质量函数为

image.png

贝塔分布是指如下概率分布。X为连续随机变量,取值范围为[0,1],其概率密度函数为:

image.png

当n为1时,二项分布变成伯努利分布或0-1分布
伯努利分布表示试验可能出现的2种结果的概率。

几种概率分布的关系:
image.png

2、共轭先验

狄利克雷分布有一些重要性质:
  • 狄利克雷分布属于指数分布族。
  • 狄利克雷分布是多项分布的共轭先验。

贝叶斯学习中常使用共轭分布。

  • 如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布,先验分布称为共轭先验。
  • 如果多项分布的先验分布是狄利克雷分布,则其后验分布也为狄利克雷分布,两者构成共轭分布。
  • 作为先验分布的狄利克雷分布的参数又称为超参数
  • 使用共轭分布的好处是便于从先验分布计算后验分布。


    image.png

二、潜在狄利克雷分配模型

1、基本想法

潜在狄利克雷分配LDA是文本集合的生成概率模型。
模型假设话题是由单词的多项分布表示,文本是由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布。
文本内容的不同是由于它们的话题分布不同。

LDA模型表示文本集合的自动生成过程:
image.png

文本的单词序列是观测变量。
文本的话题序列是隐变量,文本的话题分布和话题的单词分布也是隐变量。


image.png

LDA模型是概率图模型,其特点是以狄利克雷分布为多项分布的先验分布。
学习就是给定文本集合,通过后验概率分布的估计,推断模型的所有参数。
利用LDA进行话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布。

LDA和PLSA(概率潜在语义分析):
image.png

2、模型定义

(1)模型要素
潜在狄利克雷分配LDA使用三个集合
image.png
(2)生成过程:

LDA文本集合的生成过程:


image.png
LDA的文本生成算法
image.png

3、概率图模型

LDA模型本质是一种概率图模型
下图为LDA作为概率图模型的板块表示:


image.png

板块表示的优点是简洁,板块表示展开之后,成为普通的有向图表示。
有向图中结点表示随机变量,有向边表示概率依存关系。可以看出LDA是相同随机变量被重复多次使用的概率图模型。


image.png

4、随机变量序列的可交换性

image.png

随机变量序列可交换的假设在贝叶斯学习中经常使用。
根据De Finetti定理,任意一个无限可交换的随机变量序列对一个随机参数是条件独立同分布的。
即:


image.png

LDA假设文本由无限可交换的话题序列组成。
根据De Finetti定理知,实际是假设文本中话题对一个随机参数是条件独立同分布的。所以在参数给定的条件下,文本中的话题的顺序可以忽略。
作为对比,概率潜在语义模型假设文本中的话题是独立同分布的,文本中的话题的顺序也可以忽略。

5、概率公式

LDA模型整体是由观测变量和隐变量组成的联合概率分布,可以表为:
image.png
第m个文本的联合概率分布可以表为:
image.png
相关的文本生成概率:
image.png

三、LDA的吉布斯抽样算法

潜在狄利克雷分配LDA的学习(参数估计)是一个复杂的最优化问题,很难精确求解,只能近似求解。
常用的近似求解方法有吉布斯抽样和变分推理。

1、基本想法

image.png

为了估计多元随机变量x的联合分布p(x),吉布斯抽样法选择x的一个分量,固定其他分量,安装其条件概率分布进行随机抽样,依次循环堆每一个分量执行这个操作,得到联合分布p(x)的一个随机样本,重复这个过程,在燃烧期之后,得到联合概率分布p(x)的样本集合。

LDA模型的学习通常采用收缩的吉布斯抽样方法。基本想法:
image.png

2、算法的主要部分

根据上面的分析,问题转化为对后验概率分布p(z|w,α,β)的吉布斯抽样。
该分布表示在所有文本的单词序列给定条件下所有可能话题序列的条件概率。

(1)抽样分布的表达式
第一个因子表达式
image.png
第二个因子表达式
image.png
(2)满条件分布的表达式
image.png

3、算法的后处理

通过吉布斯抽样得到的分布p(z|w,α,β)的样本,可以得到变量z的分配值,也可以估计变量

image.png

4、算法

对给定的所有文本的单词序列w,每个位置上随机指派一个话题,整体构成所有文本的话题序列z。然后循环执行以下操作。


image.png
LDA吉布斯抽样算法
image.png

四、LDA的变分EM算法

1、变分推理

变分推理是贝叶斯学习中常用的,含有隐变量模型的学习和推理方法。
变分推理和马尔可夫链蒙特卡罗MCMC属于不同的技巧。
MCMC通过随机抽样的方法近似地计算模型的后验概率,变分推理则通过解析的方法计算模型的后验概率的近似值。

基本想法:
image.png
KL散度:
image.png
变分推理可以从另一角度理解:
image.png
总结,变分推理有以下几个步骤
image.png

2、变分EM算法

变分推理中,可以通过迭代的方法最大化证据下界,这时算法是EM算法的推广,称为变分EM算法。


image.png
变分EM算法
image.png

EM算法实际也是对证据下界进行最大化。


image.png

3、算法推导

(1)证据下界的定义
image.png
下图是变分分布的板块表示
image.png
为求解证据下界最大化:
image.png
第一项推导:
image.png
第二项推导:
image.png
第三项推导
image.png
第四项推导
image.png
第五项推导
image.png
(2)变分参数的估计
首先,通过证据下界最优化估计参数η
image.png
接着,通过证据下界最优化参数γ
image.png

LDA的变分参数估计算法

image.png
(3)模型参数的估计

给定一个文本集合D,模型参数估计对所有文本同时进行。


image.png
image.png
image.png

4、算法总结

LDA的变分EM算法
image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容