转自微信公众号:机器学习算法与Python学习
以及统计学习方法
Logistic回归
逻辑回归是用来分类的,是一种线性分类器,需要注意的地方有:
1. Logistic函数的表达式:
其导数形式为
2. logsitc回归方法主要是用最大似然估计来学习的,所以单个样本的后验概率为:
到整个样本的后验概率:
其中:
可通过对数进一步简化:
3. 其实它的loss function为-l(θ),因此我们需使loss function最小,可采用梯度下降法得到。梯度下降法公式为:
Logistic回归优点:
1、实现简单;
2、分类时计算量非常小,速度很快,存储资源低;
缺点:
1、容易欠拟合,一般准确度不太高
2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
也就是说在逻辑回归模型中,输出Y=1的对数几率是关于x的线性函数
因此,可以推出
逻辑回归是针对二分类模型的,下面推广到多分类(我们暂时不管多分类)
最大熵模型
由最大熵原理推导实现。
最大熵原理是概率模型学习的一个准则,最大熵认为,学习概率模型时,在所有可能的分布中,熵最大的模型是最好的模型。
直观地来讲,最大熵原理认为要选择的概率模型首先必须要满足既有事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是等可能的,最大熵原理通过熵的最大化来表示等可能性。
在满足约束条件下求等可能概率方法估计概率分布。
最大熵原理定义:
假设分类模型是一个条件概率分布P(Y|X),可以认为是
的推导实现
学习目标是用最大熵原理选择最好的分类模型
从最大熵模型学习中,可以看出对偶函数的极大化,等价于最大熵模型的极大似然估计。
算法:梯度下降和拟牛顿法
sgd
随机梯度下降算法的伪代码如下:
################################################
初始化回归系数为1
重复下面步骤直到收敛{
对数据集中每个样本
计算该样本的梯度
使用alpha xgradient来更新回归系数
}