泊松回归

广义线性模型是围绕指数分布族的，大多数分布都属于指数分布族，比如：Bernoulli伯努利分布、Gaussian高斯分布、multinomial多项分布、Poisson泊松分布、gamma分布、指数分布、Dirichlet分布……，服从指数分布族的条件是概率分布可以写成如下形式：

image.png

其中：

η 是自然参数（natural parameter，also called thecanonical parameter），和分布有关。
T(y) 是充分统计量（sufficient statistic），一般情况下就是y。
a(η) 是对数部分函数（log partition function），e^-a(η)本质上起着规范化常数的作用，保证yd的概率分布总和∑ p(y|η)等于1（对于连续函数来说是积分）。

当T()、a()、b()固定之后实际上就确定了指数分布族中的一种分布模型，就得到了以η为参数的模型。如果T()、a()、b()选择某种特殊的函数形式，指数分布族就会退化为某种特殊的概率分布形式（比如二项分布、正态分布），具体的分布形式就会对应了具体的回归模型。

为什么要把 y 的条件分布定义为这么奇怪的指数分布族？这是因为，在这样的定义下，我们可以用数学证明：

P(y|η)的期望值

image.png
P(y|η)的方差

image.png

如此简洁的期望和方差意味着：一旦待估计的y 的概率分布写成了某种确定的指数分布族的形式（也就是给定了具体的T()、a()、b()），那么我们可以直接套用公式一构建回归模型。

广义线性模型对一般问题进行建模首先需要明确三个假设：

p(y|x;θ)∼ExponentialFamily(η) —— 给定x和θ，y的分布服从某个指数族分布（nature parameter = η）。
our goal is to predict the expected value of T(y) given x —— 给定x，学习的目标是预测在条件x下函数T(y)的期望值E(T(y)|x)，绝大多数情况下函数T(y)=y，这就意味着我们希望预测E(y|x)，我们定义假设函数（hypothesis）h_θ(x) ，训练的目的是获得拟合函数h_θ(x) = E(y|x)的参数θ。

image.png

The natural parameter η and the inputs x are related linearly —— 参数η和输入x是线性相关的：η=θ^Tx。

123

式子 ln(y_i) = θ₀ + x_i1θ₁ + x_i2θ₂+ ...+ x_ikθ_ik + ε_i 是一个普通的线性回归，只是出现在左侧的是ln(y_i)而不是y_i。可被通用化表示为：ln(y_i) = x_i0θ₀ + x_i1θ₁ + x_i2θ₂+ ...+ x_ikθ_ik + ε_j =θ^Tx_i + ε_i ，其中x_i0=1。

所有线性回归都一样，有：E(ln(y_i)) = E(θ^Tx_i + ε_i) = x_i0θ₀ + x_i1θ₁ + x_i2θ₂+ ...+ x_ikθ_ik + E(ε_i)

我们假设每个特征值的误差 ε_i 都满足独立、同分布的正态分布：ε_i ϵ N(0, (σ_ε)²)，ε_i的期望E(ε_i)=0，因而有：E(ln(y_i)) = E(θ^Tx_i)，所以，只要确定了θ，这个模型便能够估计出ln(y_i)的概率分布期望。

事实上，我们对 E(ln(y_i) 的取值并没有兴趣，我们真正感兴趣的是y_i，因为y_i符合某种指数型概率分布，如果模型能够根据x_i预测出y_i的取值期望E(y_i)，相当于间接确定了y_i的概率分布（E(y_i)决定了y_i的分布）。

(1) 把 ln(y_i) = θ^Tx_i + ε_i 变形得： y_i = exp(θ^Tx_i + ε_i)
(2) 求期望：E(y_i) = E( exp(θ^Tx_i + ε_i) ) = E( exp(θ^Tx_i) * exp(ε_i) ) = exp(θ^Tx_i) * E( exp(ε_i) )
(3) 对于ε_i ϵ N(0, σ²)来说，E( exp(ε_i) ) = exp(σ²/2)，这样有：E(y_i) = exp(θ^Tx_i) * exp(σ²/2)

由此可见，如果想要预测y_i的期望值，必须：

(1) 计算ln(y_i)的值。
(2) 计算幂指数 exp(ln(yi))。
(3) 计算幂指数exp(ln(yi))乘以exp(σ²/2)，σ²是回归模型的均方根误差（标准误差）。

根据假设二，给定x，我们希望训练出参数θ来预测E(y|x)，也即获得能够拟合函数hθ(x) = E(y|x)的参数θ。

伯努利分布 > Logistics回归：

伯努利分布只有0、1两种情况，因此它的概率分布可以写成：

image.png

写成指数族分布的形式有：

image.png

这样在指数族分布中： B(y) = 1; T(Y) = y;

image.png

这样有E(T(Y))= E(y)，根据假设二，给定x，我们希望训练出参数θ来预测E(y|x)，也即获得能够拟合函数hθ(x) = E(y|x)的参数θ。伯努利分布的期望E(y|x)：

image.png

所以，我们需要训练参数来拟合下面的函数：

image.png

又有：

image.png

所以：

image.png

也即：

image.png

可见，给定x，我们可以通过θ^Tx_i线性拟合出η，η决定了y所服从的指数模型的分布特征，所以η的表达式一定包含决定y分布的关键因子，这个因子一定直接影响了y分布的期望。所以，由η一定能够通过某种转换得到y分布的期望，也即h_θ(x)。

这样，我们可以找到θ^Tx_i和期望h_θ(x)的关系，用指数函数的形式表达出来。而期望h_θ(x)通常被当作yi的估计值，因此这个关系就相当于建立了yi和θ^Tx_i的关系，进而根据训练集的各个(y_i， x_i)便能够确定模型参数θ。

模型训练结束后，给定任意 x_i，便能输出预测E(y_i)，而E(y)据定了y_i的概率分布P(y_i)，便可以得到各种y_i取值的概率。

附：

image.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

泊松回归

123

伯努利分布 > Logistics回归：

附：

推荐阅读更多精彩内容