logistic回归模型与最大熵模型
标签: 统计学习
目录
[TOC]
logistic回归模型
分布
定义:logistic分布,指具有如下分布函数与密度函数。式中,u为位置参数,r为形状参数
分布函数为一条S形曲线(sigmoid curve),该曲线以点(u, 1/2)中心对称,即
二项logistic回归模型
binomial logistic regression model 是一种分类模型,由条件概率分布P(Y|X)表示。可以通过监督学习的方法来估计模型参数
定义:二项logistic回归模型为如下的条件概率分布
将x扩充为(x,1),这时模型可以表示为
如果事件发生概率为p,定义该时间的几率为p/(1-p),那么该事件的对数几率(log odds)或logit函数为
对于logistic回归而言,其logit函数为
也就是说,在logistic回归模型中,输出Y=1的对数几率是输入x的线性函数
模型参数估计
使用极大似然法估计模型参数。
对于分布函数,
似然函数为,
对数似然函数为,
&=\sum\limits_{i=1}^N{\left[y_i\log{\frac{\pi(x_i)}{1-\pi(x_i)}}+\log{(1-\pi(x_i))}\right]} \ &=\sum\limits_{i=1}^N{[y_i(\omega\cdot x_i)-\log{(1+e^{\omega\cdot x_i})}]}\end{aligned}
对L(w)求极大值,得到w的估计。一般采用梯度下降法或拟牛顿法
多项logistic回归模型
上述模型可以推广为多项logistic回归模型(multi-nominal logistic regression model)
最大熵模型
最大熵原理
最大熵原理是概率模型学习的一个准则:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
假设随机变量X的概率分布是P(X),则其熵为
熵满足不等式,
|X|为x的取值个数。仅当X服从均匀分布时,熵最大
最大熵模型
应用最大熵原理得到的模型就是最大熵模型
对于给定数据集,可以确定联合分布与边缘分布的经验分布公式,
用特征函数(feature function)f(x,y)描述x,y之间的一个事件,定义为,
特征函数f(x,y)关于经验分布的期望为
特征函数关于模型与经验分布的期望为
假设这两个期望值相等,
该式可以作为模型学习的约束条件。假设有n个特征函数,则可以得到n个约束条件。
<br>
定义:在条件概率分布P(Y|X)上的条件熵H(P)最大的模型为最大熵模型
最大熵模型的学习
等价于如下的约束优化问题
等价于如下的最小值问题
求解过程如下。首先引入拉格朗日乘子,定义拉格朗日函数L(P,w),
原始问题是
对偶问题是
两个问题是等价的。先求解对偶问题的极小化问题。对偶函数记作
其解记作,
求L对P的偏导,可得到P,
令偏导等于0,得到
另外由于P(y|x)关于y累加和为1,得到
其中,
Z称为规范化因子,f为特征函数,w为特征权值。所求得P即为最大熵模型。
最后求解对偶问题外部的极大化问题
其解为
极大似然估计
对偶函数的极大化等价于最大熵模型的极大似然估计
条件概率分布P(Y|X)的对数似然函数可以表示为,
当条件概率分布P(Y|X)为最大熵模型时,可得,
对于对偶函数,代入其最小化问题的最优解Pw,同样可以得到上述式子,即有,
这样,最大熵模型的学习问题就转换为求解对数似然函数极大化或对偶函数极大化问题。
最大熵模型与logistic回归模型,又称为对数线性模型(log linear model)。该类模型就是在给定数据集上进行极大似然估计或正则化的极大似然估计
模型学习的最优化算法
目标函数为似然函数,属于光滑的凸函数,适用于多种最优化方法。
改进的迭代尺度法
改进的迭代尺度法(improved iterative scaling, IIS)
已知最大熵模型为
其中,
对数似然函数为
IIS的想法是:
假设最大熵模型当前的参数向量是
我们希望找到一个新的参数向量使得模型的对数似然函数值增大。
如果能找到这样一种参数向量更新的方法,那么就能重复使用,直至最大值。
对数似然函数的改变量为,
利用不等式
有