逻辑回归理解及公式推导

逻辑回归(logistic-regression)

逻辑回归：个人理解就是一个线性回归经过阶跃函数的处理，变成一个二项分类器，输出结果只能是0，1的条件概率的大小，其实是一种概率模型。

sigmoid函数：是一种阶跃函数(step function)，在不同横坐标尺度下，可以从0瞬间跳到1。从图形可以发现，当x>0，sigmoid函数值无限接近于1，反之接近于0。函数形式如下： $\sigma(z) = \frac{1}{1+e^{-\omega^{T}x}}$

image

逻辑回归可以看成，在参数 $\theta$ 对已知 $x$ 的条件下比较 $P(y=1| x;\theta)$ , $P(y=0| x;\theta)$ 概率大小，并选择较大的概率作为分类结果。

核心在于：

逻辑回归的公式--> $\frac{1}{1+e^{-\omega^{T}x}}$
用已知的数据集和训练样本 $x_i$ 来训练这个模型，从而做到对未知的测试样本进行准确的估计和预测。所以需要对上述公式进行参数估计，求出 $\omega$ 的值

$P_{y=1}=\frac{1}{1+e^{-\omega^T{x}}} = p$

参数估计：

损失函数：
- 线性回归-->最小二乘法
- 逻辑回归-->最大似然法

最大似然估计(Maximum Likelihood Estimation)

总体 $X$ 为连续型，概率密度为 $f(x;\theta),\theta \in \Theta$ , $\theta$ 是待估计参数， $\Theta$ 是 $\theta$ 可能取值的范围， $X_{1},X_{2}....X_{n}$ 是来自 $X$ 的样本,联合密度为 $\prod_{i=1}^{n}f(x_{i},\theta)$
随机点 $X_{1},X_{2}...X_{n}$ 落在点 $(x_{1},x_{2}...x_{n})$ 邻域内的概率近似为 $\prod_{i=1}^{n}f(x_{i},\theta)dx_{i}$
这是一个关于 $\theta$ 的函数，值随 $\theta$ 变化，取估计值 $\hat\theta$ 使得概率达到最大，由于因子 $\prod_{i=1}^{n}dx_{i}$ 不随 $\theta$ 变化，所以只考虑函数
$L(\theta)=L(x_{1},x_{2}...x_{n};\theta)=\prod_{i=1}^{n}f(x_{i};\theta)$ 的最大值，把 $L(\theta)$ 称为样本的似然函数，若 $L(x_{1},x_{2}...x_{n};\hat\theta)=\max\limits_{\theta\in\Theta}L(x_{1},x_{2}...x_{n};\theta)$ 则把 $\hat\theta(x_{1},x_{2}...x_{n})$ 作为 $\theta$ 的最大似然估计值，称 $\hat\theta(X_{1},X_{2}...X_{n})$ 为 $\theta$ 的最大似然估计量。

求最大似然估计的步骤：

写出分布律或者概率密度函数 $\prod_{i=1}^{n}p(x_{i};\theta)$ 或者 $\prod_{i=1}^{n}f(x_{i};\theta)$
写出似然函数 $L(x_{1},x_{2}\ldots,x_{n};\hat\theta)$
对似然函数中的参数 $\theta$ 求偏导数

对于最大似然估计法：已经取到样本值 $x_{1},x_{2}...x_{n}$ ,表明取到这一样本值的概率 $L(\theta)$ 比较大，所以不会考虑那些不能使样本 $x_{1},x_{2}...x_{n}$ 出现的 $\theta \in \Theta$ 作为 $\theta$ 的估计，通过固定样本观察值 $x_{1},x_{2}...x_{n}$ ，在 $\theta$ 可能取值范围 $\Theta$ 内挑选使得似然函数 $L(x_{1},x_{2}...x_{n};\theta)$ 达到最大的参数 $\hat\theta$ 作为估计值。

逻辑回归的损失函数

当事件结果就只有2个标签时， $y_{n} \in (0,1)$ ，把事件发生的概率看作 $p$ ,那么标签1的概率为
$P_{y=1}=\frac{1}{1+e^{-{w}^T{x}}} = p$
同理，标签0的概率为 $P_{y=0}=1-p$
所以这个事件发生的概率可以写成
$P(y \mid x)= \begin{cases} p,& y=1\\ 1-p,&y=0\\ \end{cases}$
为了方便计算，也可以等价于： $P(y_{i} \mid x_{i}) = p^{y_{i}}(1-p)^{1-y_{i}}$
这个函数的含义是，在对于一个样本 $(x_{i},y_{i})$ ，标签是 $y_{i}$ 对应的概率是 $P(y_{i} \mid x_{i} )= p^{y_{i}}(1-p)^{1-y_{i}}$ ，而对于一组数据，其样本概率为 $P_{总} = P(y_{1} \mid x_{1})P(y_{2} \mid x_{2})\ldots P(y_{n} \mid x_{n})=\prod_{n=1}^Np^{y_{n}}(1-p)^{1-y_{n}}$
可以通过取对数，来简化计算，此外 $P_{总}$ 是一个只包含 $\omega$ 一个未知数的函数：
$\begin{aligned} F(\omega)=ln(P_{总})&=ln(\prod_{n=1}^Np^{y_{n}}(1-p)^{1-y_{n}})\\ &=\sum_{n=1}^{N}ln(p^{y_{n}}(1-p)^{1-y_{n}})\\ &=\sum_{n=1}^N(y_{n}ln(p)+(1-y_{n})ln(1-p))\\ \end{aligned}$
式子 $(3)$ 是关于 $\omega$ 的一个函数， $P=\frac{1}{1+e^{-{w}^T{x}}}$ ，可以通过改变 $\omega$ 的值来改变总概率 $P_{总}$ 的大小。所以要使得 $P_{总}$ 概率最大，只要选择一个 $\omega^{*}$ 使得概率最大即可。这种方法就是最大似然估计。

所以现在的问题从概率问题转化成了参数估计问题，以及一个求最优化的问题。用数学语言描述就是:
$\omega^{*}= arg\max_{\omega}F(\omega)$
通常是采用梯度下降和拟牛顿法来解决这类问题。

梯度

关于梯度，对一个多维向量 $x = (x_{1},x_{2}\ldots,x_{n})$ 来讲，它的梯度就是分别对它每个分量求导数 $x'=(x'_{1},x'_{2}\ldots,x'_{n})$

推导过程

把 $F(\omega)$ 作为代价函数，梯度下降法的一般公式是： $\theta := \theta - \alpha\cdot \nabla f(\omega)$
已知
$\begin{cases} F(\omega)=\sum_{n=1}^N(y_{n}ln(p)+(1-y_{n})ln(1-p))\\ p=\frac{1}{1+e^{-{w}^T{x}}}\\ \end{cases}$
连立两式，求分别求导数可以得到解析式，对 $p$ 用链式法则求导推导如下： $u=1+e^{-\omega^{T}x},v=-\omega^Tx,p=(\frac{1}{u})'\cdot v'$
$\begin{aligned} p'&=-\frac{1}{(1+e^{-\omega^{T}x})^2}\cdot(1+e^{-\omega^{T}x})'\\ &=-\frac{1}{(1+e^{-\omega^{T}x})^2}\cdot e^{-\omega^{T}x}\cdot(-\omega^{T}x)'\\ &=-\frac{1}{(1+e^{-\omega^{T}x})^2}\cdot e^{-\omega^{T}x}\cdot(-x)\\ &=\frac{1}{1+e^{-\omega^{T}x}}\cdot \frac{e^{-\omega^{T}x}}{1+e^{-\omega^{T}x}}\cdot x\\ \end{aligned}$
把 $p$ 代入上式可以得到 $p'=p(1-p)x$ ,同理 $(1-p)'=-p(1-p)x$ ,之后可以对 $F(\omega)$ 求梯度，在求梯度前，需要知道几个结论 $(Ax)'=A^T,(x^TA)' = A$ 可以在这里查看：

$\begin{aligned} \nabla F(\omega)'&=\nabla(\sum_{n=1}^N(y_{n}ln(p)+(1-y_{n})ln(1-p)))\\ &=\sum(y_{n}ln'(p)+(1-y_{n})ln'(1-p))\\ &=\sum((y_n\frac1{p}p')+(1-y_n)\frac1{1-p}(1-p))'\\ &=\sum((y_n(1-p)x_n-(1-y_n)px_n)\\ &=\sum_{n=1}^{N}(y_n-p)x_n\\ \end{aligned}$
所以最终得到的梯度为：
$\nabla F(\omega)=\sum_{n=1}^{N}(y_n-p)x_n$

之前已经知道，求解参数的方法一般采用梯度下降法，在获得梯度 $\nabla F(\omega)$ 之后，由于这边是求能让 $p$ 概率最大的 $\omega$ ，那么选择梯度上升算法。迭代步骤为： $\theta:=\theta+\nabla F(\omega)$
展开后等于：
$\theta:=\theta+\sum_{n=1}^{N}(y_n-p)x_n;p=\frac{1}{1+e^{-\omega^{T}x}}$

随机梯度下降

梯度下降求导每次都用了所有样本点参与梯度计算，随机梯度下降的做法则是随机算则一个样本点 $(x_i,y_i)$ 来代表整体，使得 $E(G(\omega))=\nabla F(\omega)$ ,所以迭代过程为： $\theta:=\theta+\alpha N(y_n-p)x_n;p=\frac{1}{1+e^{-\omega^{T}x}}$
而 $\alpha N$ 也都是常数，所以： $\theta:=\theta+\alpha(y_n-p)x_n;p=\frac{1}{1+e^{-\omega^{T}x}}$

需要补充的数学知识:

复合函数求导-->链式法则
最大似然估计
期望和无偏估计

小结

对于逻辑回归而言，其实际就是一个 $sigmoid$ 函数套上一个回归模型，对于输入 $X$ 有输出 $y \in (0,1)$ ，所以只需要对其中的参数进行估计即可，对于参数估计问题，涉及到代价函数，而逻辑回归的代价函数可以用最大似然估计得到。因为从概率的角度来讲，对于已知的样本，通常认为在某一参数下取到这些样本的概率一定是比较大的，所以可以通过挑选参数集合中最大的参数取值来使得估计概率最大。最后可以采用梯度下降法，为了提高效率也可以使用随机梯度下降来求参数，因为这里是求最大值，只需要将梯度方向符号改为+即可。

参考阅读：

逻辑回归原理小结.刘建平
《概率论与数理统计》.盛骤
《机器学习》.周志华
逻辑回归公式推导
关于文中公式排版以及输入

最后编辑于：2018.12.18 20:27:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,491评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,856评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,745评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,196评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,073评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,112评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,531评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,215评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,485评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,578评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,356评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,215评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,583评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,898评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,174评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,497评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,697评论 2赞 335