logistic回归模型与最大熵模型

标签：统计学习

logistic回归模型

分布

定义：logistic分布，指具有如下分布函数与密度函数。式中，u为位置参数，r为形状参数

$F(x)=P(X \le x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}$

$f(x)=F(x)^{'}=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$

分布函数为一条S形曲线（sigmoid curve）,该曲线以点(u, 1/2)中心对称，即

$F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2}$

二项logistic回归模型

binomial logistic regression model 是一种分类模型，由条件概率分布P(Y|X)表示。可以通过监督学习的方法来估计模型参数
定义：二项logistic回归模型为如下的条件概率分布

$P(Y=1|x)=\frac{e^{\omega\cdot x+b}}{1+e^{\omega\cdot x+b}}$

$P(Y=0|x)=\frac{1}{1+e^{\omega\cdot x+b}}$

将x扩充为(x,1),这时模型可以表示为

$P(Y=1|x)=\frac{e^{\omega\cdot x}}{1+e^{\omega\cdot x}}$

$P(Y=0|x)=\frac{1}{1+e^{\omega\cdot x}}$

如果事件发生概率为p，定义该时间的几率为p/(1-p)，那么该事件的对数几率(log odds)或logit函数为

$logit(p)=\log{\frac{p}{1-p}}$

对于logistic回归而言，其logit函数为

$\log{\frac{P(Y=1|x)}{1-P(Y=1|x)}} = w\cdot x$

也就是说，在logistic回归模型中，输出Y=1的对数几率是输入x的线性函数

模型参数估计

使用极大似然法估计模型参数。
对于分布函数，

$P(Y=1|x) = \pi(x)\quad ,\quad P(Y=0|x) = 1-\pi(x)$

似然函数为，

$\prod\limits_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$

对数似然函数为，

\begin{aligned}L(\omega) &=\sum\limits_{i=1}^N{[y_i\log{\pi(x_i)}+(1-y_i)\log{(1-\pi(x_i))}]} \

&=\sum\limits_{i=1}^N{\left[y_i\log{\frac{\pi(x_i)}{1-\pi(x_i)}}+\log{(1-\pi(x_i))}\right]} \ &=\sum\limits_{i=1}^N{[y_i(\omega\cdot x_i)-\log{(1+e^{\omega\cdot x_i})}]}\end{aligned}

对L(w)求极大值，得到w的估计。一般采用梯度下降法或拟牛顿法

多项logistic回归模型

上述模型可以推广为多项logistic回归模型（multi-nominal logistic regression model）

$P(Y=k|x)=\frac{e^{(\omega_k\cdot x)}}{1+\sum\limits_{i=1}^{K-1}e^{(\omega_i\cdot x)}}\quad,\quad k=1,2,\cdots,K-1$

最大熵模型

最大熵原理

最大熵原理是概率模型学习的一个准则：学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。
假设随机变量X的概率分布是P(X)，则其熵为

$H(P)=-\sum\limits_xP(x)\log{P(x)}$

熵满足不等式，

$0\le H(P)\le \log{|X|}$

|X|为x的取值个数。仅当X服从均匀分布时，熵最大

最大熵模型

应用最大熵原理得到的模型就是最大熵模型
对于给定数据集，可以确定联合分布与边缘分布的经验分布公式，

$\begin{aligned}&\widetilde P(X=x,Y=y)=\frac{v(X=x,Y=y)}{N} \\ &\widetilde P(X=x)=\frac{v(X=x)}{N}\end{aligned}$

用特征函数（feature function）f(x,y)描述x,y之间的一个事件，定义为，

$f(x,y)=\begin{cases}1, & event\;\;occurred \\ 0, & not\end{cases}$

特征函数f(x,y)关于经验分布的期望为

$E_{\widetilde P}(f)=\sum\limits_{x,y}\widetilde P(x,y)f(x,y)$

特征函数关于模型与经验分布的期望为

$E_{P}(f)=\sum\limits_{x,y}\widetilde P(x)P(y|x)f(x,y)$

假设这两个期望值相等，

$\sum\limits_{x,y}\widetilde P(x,y)f(x,y)=\sum\limits_{x,y}\widetilde P(x)P(y|x)f(x,y)$

该式可以作为模型学习的约束条件。假设有n个特征函数，则可以得到n个约束条件。
<br>
定义：在条件概率分布P(Y|X)上的条件熵H(P)最大的模型为最大熵模型

$H(P)=-\sum\limits_{x,y}\widetilde P(x)P(y|x)\log{P(y|x)}$

最大熵模型的学习

等价于如下的约束优化问题

$\begin{aligned}\max_{p \in C}\quad & H(P)=-\sum\limits_{x,y}\widetilde P(x)P(y|x)\log{P(y|x)} \\ s.t.\quad & E_p(f_i)=E_{\widetilde P}(f_i)\quad ,\quad i=1,2,\cdots,n \\ & \sum\limits_yP(y|x)=1\end{aligned}$

等价于如下的最小值问题

$\begin{aligned}\min_{p \in C}\quad & -H(P)=-\sum\limits_{x,y}\widetilde P(x)P(y|x)\log{P(y|x)} \\ s.t.\quad & E_p(f_i)-E_{\widetilde P}(f_i)=0\quad ,\quad i=1,2,\cdots,n \\ & \sum\limits_yP(y|x)=1\end{aligned}$

求解过程如下。首先引入拉格朗日乘子，定义拉格朗日函数L(P,w),

$\begin{aligned}L(P,\omega)=& -H(P)+\omega_0\left(1-\sum\limits_yP(y|x)\right)+\sum\limits_{i=1}^n\omega_i(E_{\widetilde P}(f_i)-E_p(f_i)) \\ =& \sum\limits_{x,y}\widetilde P(x)P(y|x)\log P(y|x)+\omega_0\left(1-\sum\limits_yP(y|x)\right) \\ & +\sum\limits_{i=1}^n\left(\sum\limits_{x,y}\widetilde P(x,y)f_i(x,y)-\sum\limits_{x,y}\widetilde P(x)P(y|x)f_i(x,y)\right)\end{aligned}$

原始问题是

$\min_{P \in C}\max_\omega L(P,\omega)$

对偶问题是

$\max_\omega \min_{P \in C}L(P,\omega)$

两个问题是等价的。先求解对偶问题的极小化问题。对偶函数记作

$\Psi(\omega)=\min_{P\in C}L(P,\omega)=L(P_\omega,\omega)$

其解记作，

$P_\omega=arg\min_{P\in C}L(P,\omega)=P_\omega(y|x)$

求L对P的偏导，可得到P，

$\begin{aligned}\frac{\partial L(P,\omega)}{\partial P(y|x)}& =\sum\limits_{x,y}\widetilde P(x)(\log P(y|x)+1)-\sum\limits_y\omega_0-\sum\limits_{x,y}\left(\widetilde P(x)\sum\limits_{i=1}^n\omega_if_i(x,y)\right) \\ & = \sum\limits_{x,y}\widetilde P(x)\left(\log P(y|x)+1-\omega_0-\sum\limits_{i=1}^n\omega_if_i(x,y)\right)\end{aligned}$

令偏导等于0，得到

$P(y|x)=e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)+\omega_0-1\right)}=\frac{e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}}{e^{(1-\omega_0)}}$

另外由于P(y|x)关于y累加和为1，得到

$P_\omega(y|x)=\frac{1}{Z_\omega(x)}e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

其中，

$Z_\omega(x)=\sum\limits_ye^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

Z称为规范化因子，f为特征函数，w为特征权值。所求得P即为最大熵模型。
最后求解对偶问题外部的极大化问题

$\max_\omega \Psi(\omega)$

其解为

$\omega^*=arg\max_\omega \Psi(\omega)$

极大似然估计

对偶函数的极大化等价于最大熵模型的极大似然估计

条件概率分布P(Y|X)的对数似然函数可以表示为，

$L_{\widetilde p}(P_\omega)=\log{\prod\limits_{x,y}P(y|x)^{\widetilde P(x,y)}}=\sum\limits_{x,y}\widetilde P(x,y)\log{P(y|x)}$

当条件概率分布P(Y|X)为最大熵模型时，可得，

$\begin{aligned}L_{\widetilde p}(P_\omega)& =\sum\limits_{x,y}\widetilde P(x,y)\log{P(y|x)} \\& =\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\omega_if_i(x,y)-\sum\limits_{x,y}\widetilde P(x,y)\log{Z_\omega(x)} \\& =\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\omega_if_i(x,y)-\sum\limits_{x}\widetilde P(x)\log{Z_\omega(x)}\end{aligned}$

对于对偶函数，代入其最小化问题的最优解Pw，同样可以得到上述式子，即有，

$\Psi(\omega)=L_{\widetilde p}(P_\omega)$

这样，最大熵模型的学习问题就转换为求解对数似然函数极大化或对偶函数极大化问题。

最大熵模型与logistic回归模型，又称为对数线性模型（log linear model）。该类模型就是在给定数据集上进行极大似然估计或正则化的极大似然估计

模型学习的最优化算法

目标函数为似然函数，属于光滑的凸函数，适用于多种最优化方法。

改进的迭代尺度法

改进的迭代尺度法（improved iterative scaling, IIS）
已知最大熵模型为

$P_\omega(y|x)=\frac{1}{Z_\omega(x)}e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

其中，

$Z_\omega(x)=\sum\limits_ye^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

对数似然函数为

$L(\omega)=\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\omega_if_i(x,y)-\sum\limits_{x}\widetilde P(x)\log{Z_\omega(x)}$

IIS的想法是：
假设最大熵模型当前的参数向量是

$\omega=(\omega_1,\omega_2,\dots,\omega_n)^T$

我们希望找到一个新的参数向量使得模型的对数似然函数值增大。

$\omega+\delta=(\omega_1+\delta_1,\omega_2+\delta_2,\dots,\omega_n+\delta_n)^T$

如果能找到这样一种参数向量更新的方法，那么就能重复使用，直至最大值。

对数似然函数的改变量为，

$L(\omega+\delta)-L(\omega)=\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\delta_if_i(x,y)-\sum\limits_x\widetilde P(x)\log{\frac{Z_{\omega+\delta}(x)}{Z_\omega(x)}}$

利用不等式

$-\log{\alpha}\ge1-\alpha$

有

$\begin{aligned}L(\omega+\delta)-L(\omega)\ge& \sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\delta_if_i(x,y)+1-\sum\limits_x\widetilde P(x)\frac{Z_{\omega+\delta}(x)}{Z_\omega(x)} \\=& \sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\delta_if_i(x,y)\end{aligned}$

最后编辑于：2017.12.10 12:54:02

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

logistic回归模型与最大熵模型

logistic回归模型与最大熵模型

logistic回归模型与最大熵模型

目录