Generalized Linear Models 一般线性模型

这一节，讲的是已知样例标签y的分布（比如伯努利分布，高斯分布）是指数族中的一员，怎么利用运用GLM生成假设h(x)的公式（比如h(x)=θx）。

一、伯努利分布，二项分布，多项式分布

受到维基的启发，这里用n（进行实验的次数）和k（实验的结果的个数）来区分伯努利分布，二项分布和多项式分布

1、伯努利分布（n=1，k=2，随机变量X==>事件A发生）

进行1次实验，实验只有2个结果且结果互斥，用X来表示事件A发生，事件A发生的概率为φ，（即分布律为； X=1，p = Φ；X=0，p=1-Φ），可以写成

那么就说随机变量X服从伯努利分布

举个栗子：投一次硬币，X表示“结果为正面”，P（X=1）表示的是结果为正面的概率。

2、二项分布（n>1，k=2，随机变量X==>事件A发生的次数）

进行n次实验，同样每次实验只有2个结果，用X来表示事件A发生的次数，事件A发生的概率为φ，如果

那么就说，随机变量X服从二项分布（即事件A发生m次的概率为P（x=m））

并且X的所有可能情况（X发生m₁，m₂，m₃...次，m和为n）概率之和为1

举个栗子：投n次硬币，每次可能出现两种结果，则X代表的是“结果为正面的次数”，P（X=m）表示n次实验中，有m结果为正面的概率。

3、多项式分布（n>1,k>1,随机向量X=（x1=n1,x2 = n2,...xk=nk））

注意改变，实验结果不再是两个而是多个，X不再是一个单值变量而是一个向量，元素xi=ni的意思是，事件xi发生了ni次，并且n1+n2+...+nk = n

进行n次实验，每次实验有k个结果，且结果互斥。则结果x1发生了n1次，且x1发生1次的概率为p1，x2发生了n2次，x2发生1次的概率为p2。。。即若满足

另一种形式为

那么就说，随机向量X=（x1=n1,x2 = n2,...xk=nk）满足多项式分布。
（注意其中每个事件发生m次的分布律可能都不相同）

举个栗子：掷骰子，六个点数出现的概率都不一样。掷n次，每次可能会出现6种不同的结果，用x1代表结果为点数一朝上1，p1代表点数1朝上的概率。依次类推。

此时，如果问有m次都是点数6朝上的概率，那么可以表示为x6=m的概率：

那么也就相当于上面的二项分布，其中p是点数为6的概率，（1-p）是点数不为6的概率。

但是这不是多项式分布的问题，多项式分布的问题是：点数1 ~ 6的出现次数分别为(n1,n2,n3,n4,n5,n6)时的概率是多少（公式里面的结果不再是两个，而是多个）？（其中sum(n₁ ~ n₆）= n）
此时X=（x1=n1,x2 = n2,...xk=nk）才是服从多项式分布的。
注意，多项式分布中各结果也是互斥的

再举个栗子，
比如邮件分类问题，有一种表示邮件的方法：假设字典中有50000个单词，那么令x为一个50000维的向量，这个邮件中有buy单词，在字典的第k个位置，那么x的第k个元素就为1。单词未出现，则该位置的元素为0。
则不同的邮件，可以表示成x₁=（1,1,0,0，...，1,1,1），x₂=（0,0,0,0，...，1,1,1），所以共有2⁵⁰⁰⁰⁰个结果。且每个结果互斥。

套到多项式分布上来，也就是，进行n次实验，每次实验可能发生2⁵⁰⁰⁰⁰个结果，用x₁表示第一种结果，p₁ 表示第一种结果发生的概率，以此类推，用随即向量X=（x1=n1,x2 = n2,...xk=nk）表示n次实验中，每个结果出现的次数分别为n1，n2，...的情况，那么随机向量X也服从多项式分布。

二、指数族（The exponential family）

在学习GLMs之前，先定义一种指数族分布：若是有一类分布可以写成下面这种形式的，就说这个分布属于指数族分布。

其中，T(y)一般等于y，η被叫做自然参数（natural parameter）。其余的一些参数理解不深，这里就不介绍了。

一些常见的分布，比如伯努利分布，高斯分布，都可以写成上面的形式，只不过是相应的a，b，T不相同。
比如，我们可以把伯努利分布写成：

即伯努利分布可以写成指数族形式，可以看出其中对应的T,a,b分别为

再写高斯分布，回忆一下，当我们得到线性回归时，方差σ²的值对最终的假设h没有影响，所以为了方便，我们将σ²设置为1. 于是我们可以得到

其中，对应的指数族的参数分别为

除了这些，还有很多指数族分布的成员：多项式分布，泊松分布，gamma分布，指数分布，beta分布，dirichlet分布等等。
如果给定x和θ，且已知y服从这些分布中的某一个分布，那么我们就可以根据下面的规则，来为预测y的假设h(x)建模。

目标函数不等于预测模型！
目标函数是一个挺复杂的概念，简单地说，就是我们需要去优化的函数，要结合模型复杂度，结构风险最小化等。
而模型就是根据输入x和学习好的参数θ去预测输出y的模型。
比如，已经介绍了的逻辑回归中的目标函数可以理解为最大似然函数L(θ),而预测模型是sigmoid函数g(z)。

而这节主要讲的，就是如何根据y的分布，来建立预测y的等式。
至于目标函数，是和你自己所需要达到的目标来设定的。

三、建立一般线性模型

1、三个假设

已知y分布，为了得到GLM，假设我们的模型对于给定输入x 情况下y的条件分布即p(y|x)满足下面三个条件：

1 y|x;θ~ExponentialFamily(η),即，给定x和θ，在参数η的情况下，y的分布服从于指数族分布中的一个分布。
2 h(x) = E[y|x;θ].即，给定x以后我们想要预测T(y)的期望值（不是很理解），而一般情况下T(y) = y，所以二者期望值相等。对于假设h(x)，一般情况下，h(x) 即为y的期望即h(x) = E[y|x],所以假设E[T(y)] = E[y|x]=h(x).
3 η=θ^Tx,即z自然参数η和输入x线性相关.

2、普通最小二乘法（y服从高斯分布）

直接上假设的推导

y服从高斯分布，可以用GLM方法来对预测进行建模
2.假设给定x，y|x;θ~N(μ,σ²),---假设1，解释第二行期望值为μ
3.假设2，得h(x) = E[y|x;θ]
4.由上一节指数族中，已知，把高斯分布写成指数族的形式以后会得到自然参数η=μ
5.假设3，得到η=θ^Tx。
至此，得到y服从高斯分布时的预测模型h(x)的表示。其中比较重要的是第4步，需要把y服从的分布写成指数族的形式。

3、逻辑回归（y服从伯努利分布）

y服从伯努利分布==>
假设1==>y|x;θ~Bernoulli(φ)==>
假设2==>h(x) = E[y|x;θ]==>
E[y|x;θ]=φ==>
伯努利分布的指数族形式得到第三行==>
假设3==>第四行

4、Softmax Regression

在多分类问题中，如果标签y有k个值，即y属于{1,2,3...，k}。我们可以根据多项式分布来对这种问题进行建模。

a、首先，需要解释一下多项式分布也属于指数族。

首先，假设共有k个结果，每个结果对应的概率为φ₁,φ₂,...φ_k。然而，这k个结果并不是互相独立的（受限制于和为1，多项式分布的性质）。并不清楚为什么非要独立
因此，我们只有k-1个参数来描述多项式分布，即φ₁,φ₂,...φ_k-1，这里φ_i = p(y=i;φ),而p(y=k;φ) = 1-sigma（φ_i）。需要注意的是，φ_k并此时并不是参数，而是有其余k-1个参数确定的常量。

其中，T(y)和y的关系是。(T(y))_i = 1{y=i}。于是有 p(y=i;φ) = φ_i = E[(T(y))_i]。
一旦y等于1，那么y就不再为别的数。比如，y被判为垃圾邮件，那么绝不是公司邮件或者私人信件。
这么表达是为了方便理解，在把多项式分布转化为指数族时，T（y）是一个向量，元素为(T(y))_i = 1{y=i}。提前将多项式分布和指数族连接了起来。

上面这个公式的意思，是y=1时， p(y=1;φ) = φ₁，也就是y的分布律，y服从这个分布（但我认为，这并不是精确的多项式分布的公式，毕竟此时只有k-1个参数）。

将此时y的分布推导出指数族的形式

于是可以知道

这样也算推出了，多项式分布也是指数族分布的一员。

连接二者（用φ和η连接多项式分布与指数族分布）的函数为

通过上面式子的转化，可以得到下面

通过公式7，我们可以得到用η表示φ的公式

于是，一般情况下，在我们并不知道φ_i的情况下，可以用GLM假设中的第3个假设，推出预测y=i的概率

这也就是平时经常见到的，预测概率的公式。

此时，我们的模型可以根据GLM得到

也就是说，我们的假设，就是输出对每个结果预测的概率。
这就是softmax regression中的假设模型了。

最后，类似于在线性最小二乘和逻辑回归里的目标函数，我们用log-似然函数来作为目标函数，用来学习参数θ。

再通过优化方法，得到最终需要学习的参数。以上就是softmax regression的由来的介绍。

大致梳理一下就是，y服从多项式分布，于是用GLM来建模，得到假设的模型。
而因为模型输出的是概率，所以采用极大似然的方法来学习参数。

介绍的并不清楚，因为我有一些不懂得地方。。。

最后编辑于：2017.12.11 03:21:41

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342