一、逻辑斯谛回归模型
1、逻辑斯谛分布
设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:
2、二项逻辑斯谛回归
二项逻辑斯谛回归模型是如下的条件概率分布:
事件的几率odds:事件发送与事件不发生的概率之比为
称为事件的发生比
对数几率:
对逻辑斯谛回归:
3、模型参数估计
似然函数:
目标:求出使这一似然函数的值最大的参数估计,w1,w2,...wn 使得L(w)取得最大值
对数似然函数:
对L(w)求极大值,得到w的估计值。
通常采用梯度下降法及拟牛顿法,学到的模型:
4、多项逻辑斯谛回归
二、最大熵模型
最大熵模型由最大熵原理推导实现。
1、最大熵原理
学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型,表述为在满足约束条件的模型集合中选取熵最大的模型。
2、最大熵模型
X和Y分别是输入和输出的集合,这个模型表示的是对给定的输入X,以条件概率P(Y|X)输出Y
给定数据集:
联合分布P(Y|X)的经验分布,边缘分布P(X)的经验分布:
定义:
3、最大熵模型的学习
最大熵模型的学习可以形式化为约束最优化问题。
这里,将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始问题:
L(P,w)是P的凸函数,原始问题的解和对偶问题的解是等价的,可以通过求解对偶问题,来求解原始问题。
4、极大似然估计
最大熵模型就是(6.22)(6.23)表示的条件概率分布
证明:对偶函数的极大化等价于最大熵模型的极大似然估计。
对数似然函数:
而对数函数:
最大熵模型与逻辑斯谛回归模型有类似形式,它们又称为对数线性模型。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
三、模型学习的最优化算法
逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解,它是光滑的凸函数,因此多种最优化的方法都适用。
常用方法:
- 改进的迭代尺度法
- 梯度下降法
- 牛顿法
- 拟牛顿法
1、改进的迭代尺度法
根据Jensen不等式:
于是得到
算法:
2、最优化方法
梯度下降法
梯度下降法是一种迭代算法。选取适当的初值X^(0),不断迭代,更新x的值,进行目标函数的极小化,直到收敛。由于负梯度方向是使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新x的值,从而达到减少函数值的目的。
3、无约束最优化问题
(1)牛顿法
牛顿法是迭代算法,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算比较复杂
算法步骤:
(2)拟牛顿法
通过正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵,简化了这一计算过程
最大熵模型学习的BFGS算法