泊松回归

广义线性模型是围绕指数分布族的,大多数分布都属于指数分布族,比如:Bernoulli伯努利分布、Gaussian高斯分布、multinomial多项分布、Poisson泊松分布、gamma分布、指数分布、Dirichlet分布……,服从指数分布族的条件是概率分布可以写成如下形式:


image.png

其中:

  1. η 是自然参数(natural parameter,also called thecanonical parameter),和分布有关。
  2. T(y) 是充分统计量 (sufficient statistic) ,一般情况下就是y。
  3. a(η) 是对数部分函数(log partition function),e-a(η)本质上起着规范化常数的作用,保证yd的概率分布总和∑ p(y|η)等于1(对于连续函数来说是积分)。

当T()、a()、b()固定之后实际上就确定了指数分布族中的一种分布模型,就得到了以η为参数的模型。如果T()、a()、b()选择某种特殊的函数形式,指数分布族就会退化为某种特殊的概率分布形式(比如二项分布、正态分布),具体的分布形式就会对应了具体的回归模型。

为什么要把 y 的条件分布定义为这么奇怪的指数分布族?这是因为,在这样的定义下,我们可以用数学证明:

  • P(y|η)的期望值


    image.png
  • P(y|η)的方差


    image.png

如此简洁的期望和方差意味着:一旦待估计的y 的概率分布写成了某种确定的指数分布族的形式(也就是给定了具体的T()、a()、b()),那么我们可以直接套用公式一构建回归模型。

广义线性模型对一般问题进行建模首先需要明确三个假设:

  1. p(y|x;θ)∼ExponentialFamily(η) —— 给定x和θ,y的分布服从某个指数族分布(nature parameter = η)。
  2. our goal is to predict the expected value of T(y) given x —— 给定x,学习的目标是预测在条件x下函数T(y)的期望值E(T(y)|x),绝大多数情况下函数T(y)=y,这就意味着我们希望预测E(y|x),我们定义假设函数(hypothesis)hθ(x) ,训练的目的是获得拟合函数hθ(x) = E(y|x)的参数θ。

以“逻辑回归”举例,其条件概率p(y|x;θ)服从高斯分布,高斯分布的期望是μ。假设函数hθ(x) = 0·p(y=0|x;θ) + 1·p(y=1|x;θ) = p(y=1|x;θ) = E(y|x;θ)。

image.png

  1. The natural parameter η and the inputs x are related linearly —— 参数η和输入x是线性相关的:η=θTx。

123

式子 ln(yi) = θ0 + xi1θ1 + xi2θ2+ ...+ xikθik + εi 是一个普通的线性回归,只是出现在左侧的是ln(yi)而不是yi。可被通用化表示为:ln(yi) = xi0θ0 + xi1θ1 + xi2θ2+ ...+ xikθik + εj =θTxi + εi ,其中xi0=1。

所有线性回归都一样,有:E(ln(yi)) = E(θTxi + εi) = xi0θ0 + xi1θ1 + xi2θ2+ ...+ xikθik + E(εi)

我们假设每个特征值的误差 εi 都满足独立、同分布的正态分布:εi ϵ N(0, (σε)2),εi的期望E(εi)=0,因而有:E(ln(yi)) = E(θTxi),所以,只要确定了θ,这个模型便能够估计出ln(yi)的概率分布期望。

事实上,我们对 E(ln(yi) 的取值并没有兴趣,我们真正感兴趣的是yi,因为yi符合某种指数型概率分布,如果模型能够根据xi预测出yi的取值期望E(yi),相当于间接确定了yi的概率分布(E(yi)决定了yi的分布)。

(1) 把 ln(yi) = θTxi + εi 变形得: yi = exp(θTxi + εi)
(2) 求期望:E(yi) = E( exp(θTxi + εi) ) = E( exp(θTxi) * exp(εi) ) = exp(θTxi) * E( exp(εi) )
(3) 对于εi ϵ N(0, σ2)来说,E( exp(εi) ) = exp(σ2/2),这样有:E(yi) = exp(θTxi) * exp(σ2/2)

由此可见,如果想要预测yi的期望值,必须:

(1) 计算ln(yi)的值。
(2) 计算幂指数 exp(ln(yi))。
(3) 计算幂指数exp(ln(yi))乘以exp(σ2/2),σ2是回归模型的均方根误差(标准误差)。

根据假设二,给定x,我们希望训练出参数θ来预测E(y|x),也即获得能够拟合函数hθ(x) = E(y|x)的参数θ。

伯努利分布 > Logistics回归:

伯努利分布只有0、1两种情况,因此它的概率分布可以写成:


image.png

写成指数族分布的形式有:

image.png

这样在指数族分布中: B(y) = 1; T(Y) = y;
image.png

image.png

这样有E(T(Y))= E(y),根据假设二,给定x,我们希望训练出参数θ来预测E(y|x),也即获得能够拟合函数hθ(x) = E(y|x)的参数θ。伯努利分布的期望E(y|x):


image.png

所以,我们需要训练参数来拟合下面的函数:


image.png

又有:


image.png
image.png

所以:


image.png

也即:


image.png

可见,给定x,我们可以通过θTxi线性拟合出η,η决定了y所服从的指数模型的分布特征,所以η的表达式一定包含决定y分布的关键因子,这个因子一定直接影响了y分布的期望。所以,由η一定能够通过某种转换得到y分布的期望,也即hθ(x)。

这样,我们可以找到θTxi和期望hθ(x)的关系,用指数函数的形式表达出来。而期望hθ(x)通常被当作yi的估计值,因此这个关系就相当于建立了yi和θTxi的关系,进而根据训练集的各个(yi, xi)便能够确定模型参数θ。

模型训练结束后,给定任意 xi,便能输出预测E(yi),而E(y)据定了yi的概率分布P(yi),便可以得到各种yi取值的概率。

附:

image.png

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容

  • 泊松回归包括回归模型,其中响应变量是计数而不是分数的形式。 例如,足球比赛系列中的出生次数或胜利次数。 此外,响应...
    yuanyb阅读 3,251评论 0 1
  • 牛顿方法 之前我们在最大化对数似然函数l(θ)时用到了梯度上升法,现在我们介绍另一种方法。 我们先来看下如何用牛顿...
    secondplayer阅读 2,826评论 0 3
  • 这一节,讲的是已知样例标签y的分布(比如伯努利分布,高斯分布)是指数族中的一员,怎么利用运用GLM生成假设h(x)...
    小碧小琳阅读 3,269评论 0 1
  • 王者荣耀
    夏末灬允樱阅读 150评论 0 0
  • 各位姑姑、伯伯、叔叔,侄子如同亲生子女。这是亲情的拓展,是血亲的强化,对姑伯叔自己就是儿女,同理,姑伯叔对待侄子如...
    李炜微言阅读 766评论 0 0