机器学习笔记12: 因子分析

上一节我们介绍了用EM算法求解混合高斯模型，但这个算法通常是在样本数足够多的情况下才成立，即满足样本数m远远大于特征数n。

如果n >> m，那么在模型计算参数的时候会遇到一些问题。计算均值和协方差函数这两个参数的公式为：

当n >> m时，我们会发现Σ是奇异矩阵，这也就意味着Σ^-1不存在，并且1/|Σ|^1/2 = 1/0，这几项在估计多元高斯分布的密度函数中都会用到，因此我们没法进行拟合。

更一般的，如果m没有在一定范围内大于n，那么用极大似然估计法估计参数的效果都很差。然而我们还是希望用多元高斯分布来估计样本，应该怎么办呢？

限制协方差矩阵

如果我们没有足够的数据来估计协方差矩阵Σ，那么可以考虑给Σ做一些假设。比如我们可以假设Σ是对角矩阵，那么可以计算出：

回顾一下之前我们说过高斯密度函数的等高线是椭圆，如果Σ是对角矩阵，那么就意味着椭圆的主轴与坐标轴是平行的。

有时我们会对Σ做更强的假设，Σ不仅是对角矩阵，而且对角上每个元素的值都是相等的，我们可以写成：Σ = σ²I，其中 σ²是我们可以控制的参数，通过极大似然估计可以计算出：

这个模型对应的等高线是个圆形(在二维空间是圆，在三维空间是球)。

如果我们要估计出完整的Σ，需要满足m ≥ n + 1才能保证Σ是非奇异矩阵。而如果使用上面两种假设，只需要满足m ≥ 2 就能保证Σ是非奇异矩阵。

但是使用上面两种假设也是有明显缺点的，我们假设了特征之间是独立不相关的，这个假设太强了，我们还是希望能捕捉到特征之间的关系的。接下来我们介绍一种因子分析的模型，它使用了比对角矩阵更多的特征，同时保留了特征之间的关系，并且不需要计算一个完整的Σ。

边缘与条件高斯分布

在引入因子分析模型之前，我们先介绍下如何在多元高斯分布下求解边缘与条件高斯分布。

假设我们有如下的随机变量：

其中x₁ ∈ R^r，x₂ ∈ R^s，x ∈ R^{r + s}。假设x服从高斯分布N(μ, Σ)，其中

上式中的μ₁ ∈ R^r，μ₂ ∈ R^s，Σ₁₁ ∈ R^{r x r}，Σ₁₂ ∈ R^{r x s}，以此类推。注意由于协方差矩阵的对称性，Σ₁₂ = Σ₂₁^T。

在我们的假设中，x₁和x₂的联合分布是多元高斯分布，那么x₁的边缘分布是什么呢？不难证明，E[x₁] = μ₁，Cov(x₁) = E[(x₁ - μ₁)(x₁ - μ₁)^T] = Σ₁₁。关于Cov(x₁)的证明如下：

比对矩阵左上角部分就可得到结论。由此可见，多元高斯分布的边缘分布仍然是多元高斯分布，即x₁ ~ N(μ₁, Σ₁₁)。

接下来我们看条件分布应该如何求解。根据多元高斯分布的定义，可得x₁ | x₂ ~ N(μ_1|2, Σ_1|2)，其中：

在接下来的因子分析模型推导中，上面这些公式会非常有用。

因子分析模型

在因子分析(factor analysis)模型中，我们给出(x, z)的联合分布如下：

其中z ∈ R^k是隐含随机变量，μ ∈ Rⁿ，变换矩阵Λ ∈ R^{n x k}，对角矩阵Ψ ∈ R^{n x n}，k通常选择为比n小的一个数。

上述过程可以理解为：首先在k维空间中按照多元高斯分布生成z⁽ⁱ⁾，然后通过μ + Λz⁽ⁱ⁾将z⁽ⁱ⁾映射到n维空间中，最后由于x⁽ⁱ⁾与上述模型之间存在误差，所以在模型基础上增加协方差矩阵Ψ的噪音，从而得到训练数据x⁽ⁱ⁾。

上述过程可以等价表示为：

其中ε和z是独立的

上述过程可以进一步表述为：高维样本点是通过低维样本点经过高斯分布、线性变换、误差扰动生成的，因此高维数据可以用低维数据来表示。

下面我们开始计算模型参数。由于x和z的联合分布符合多元高斯分布，所以可以表示为：

我们需要计算出μ_zx和Σ。首先由于z ~ N(0, I)，所以E[z] = 0，因此有：

将两个结果结合起来，就有：

然后我们来计算Σ。我们很容易证明Σ_zz = Cov(z) = I。另外，我们也可以推导出Σ_zx：

同样我们也可以推导出Σ_xx：

综合上述结果，我们可以得到：

由此，我们也能得到x的边缘分布是x ~ N(μ, ΛΛ^T + Ψ)。因此对于样本{x⁽ⁱ⁾; i=1, ..., m}，我们对其进行极大似然估计：

但是我们没有办法通过求导的方式获得各个参数，根据上一节的经验，我们需要借助EM算法进行求解。

因子分析的EM算法

E步的推导比较简单。我们需要计算Q_i(z⁽ⁱ⁾) = p(z⁽ⁱ⁾|x⁽ⁱ⁾; μ, Λ, Ψ)。根据之前条件分布的讨论，z⁽ⁱ⁾|x⁽ⁱ⁾; μ, Λ, Ψ ~ N(μ_{z⁽ⁱ⁾|x⁽ⁱ⁾}, Σ_{z⁽ⁱ⁾|x⁽ⁱ⁾})，其中：

将其代入到Q_i(z⁽ⁱ⁾)中，可得：

接下来我们来看M步，我们需要最大化的目标函数是：

我们需要分别求出μ, Λ, Ψ。这三个参数的推导需要有一定数学技巧，这里就省略推导步骤，直接给出结果了。感兴趣的读者可以查阅讲义部分对Λ的推导。

其中Ψ是对角矩阵，只需将Φ上对角线上的元素放在Ψ对应位置上就得到了Ψ。

总结

当样本数m远远小于特征数n时，用EM算法求解混合高斯模型是不可行的，我们需要使用因子分析模型
因子分析模型的方法本质是：高维样本点是通过低维样本点经过高斯分布、线性变换、误差扰动生成的，因此高维数据可以用低维数据来表示

参考资料

斯坦福大学机器学习课CS229讲义 Factor Analysis
网易公开课：机器学习课程双语字幕视频

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,723评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,080评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,604评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,440评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,431评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,499评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,893评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,541评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,751评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,547评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,619评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,320评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,890评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,896评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,137评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,796评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,335评论 2赞 342