逻辑斯蒂回归（LR）

在广告计算和推荐系统中使用频率极高
带正则化的线性模型比较不容易对稀疏特征过拟合

逻辑斯蒂分布：

$f(y)=F′(y)=\frac{e^{−(y−μ)/γ}}{γ(1+e^{−(y−μ)/γ})^2}，代表x映射的y点(y=wx+b)在该处的概率$

$F(y)=P(Y \le y)=\frac{1}{1+e^{-(y−μ)/γ}}，表示(x,y)可能被分类为1(位于该直线以下)的概率$

μ为位置参数，γ>0为形状参数。

LR模型最终形式表现为一种概率模型，这是和几何分类模型最大的区别，如SVM，KNN等。

image.png

二项逻辑斯蒂回归模型：（其实是个二分类）

$P(Y=1|x)=\frac{e^{wx+b}}{1+e^{wx+b}} （\hat{y}=wx+b）$

$P(Y=0|x)=\frac{1}{1+e^{wx+b}}$

令 $P(Y=1|x)=\pi(x)，P(Y=0|x)=1-\pi(x)$

极大似然估计法： $y_i=\{ 0,1\}$ ， $y_i$ 为决定 $Y=真/假$ ，数据集 $T=(x_1,y_1),...$

$L(w))=\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}（交叉熵）$

$max ln(L(w))=log(\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i})（交叉熵）$

$=\sum_{i=1}^{N}[y_i(wx_i)-log(1+e^{wx_i})]$

如果用交叉熵，LR是凸函数。softmax回归也是凸函数。

这样一来，问题就变成了以对数似然函数为目标函数的，以求 $\pi(x)$ 可能性最大时 $w$ 的值为目的的最优化问题。

我个人的理解是对于

$\begin{cases} wx+b > 0 ，分类为0 \\ wx+b < 0 ，分类为1 \end{cases}$

选择 $(x_0,y_0)$ 为回归线与 $x=x_0$ 交汇点，则被可能被分类为1的概率为 $p(Y \le y_0) = \pi(x)$ ，然后再计算 $\max_{w}\pi(x)^{k}(1-\pi(x))^{n-k}$ 的极大似然估计得到最可能的 $\pi(x)（含w）$ 对应的 $w$

红色为 0 黑色为 1 .png

求解逻辑回归的方法：

梯度下降：

$log(L(w))=log(\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i})=\sum_{i=1}^{N}[y_i(wx_i)-log(1+e^{wx_i})]$

最大化 $L(w)$ 等价于最小化损失函数 $J(w)$ ，因为除了N，所以求导可以直接得到梯度

$J(w)=-\frac{1}{N}log(L(w))=-\frac{1}{N}(\sum(y_iln(p(x_i))+(1-y_i)ln(1-p(x_i))))$

image.png

$g_j=\frac{\partial J(w)}{\partial w_j}$
$w_j^{k+1}=w_j^{k}+ag_j$

梯度下降法实现相对简单，但是其收敛速度往往不尽人意，可以考虑使用随机梯度下降法来解决收敛速度的问题
你可能很奇怪b怎么不见了，因为 $w=(w_1,...,w_n,b)^T,x=(x_1,...,x_n,1)^T$

延申拓展：

$g_j=\frac{\partial J(w)}{\partial w_j}=-\frac{1}{N}\frac{\partial\sum_{i=1}^{N}(y_ilog(\pi_w(x_i))+(1-y_i)(log(1-\pi(x_i))))}{\partial w_j}$ = $-\frac{1}{N}\frac{\partial\sum_{i=1}^{N}(y_ilog(\pi_w(x_i))+(1-y_i)(log(1-\pi(x_i))))}{\partial w_j}$ = $-\frac{1}{N}\sum_{i=1}^{N}(y_i\frac{1}{\pi(x)}\frac{\partial \pi(x)}{\partial w_j}+(1-y_i)\frac{1}{1-\pi(x_i)}\frac{\partial(1-\pi(x_i))}{\partial w_j})$ = $-\frac{1}{N}\sum_{i=1}^{N}[(\frac{y_i}{\pi(x_i)}+\frac{y_i-1}{1-\pi(x_i)})\frac{\partial \pi(x_i)}{\partial w_j}]$ = $-\frac{1}{N}\sum_{i=1}^{N}[\frac{y_i-\pi(x)}{\pi(x)(1-\pi(x_i))}\frac{1}{(1+e^{-(wx+b)})^2}e^{-(wx+b)}\frac{\partial w_jx_j}{\partial w_j}]$ = $-\frac{1}{N}\sum_{i=1}^{N}[\frac{y_i-\pi(x)}{\pi(x_i)(1-\pi(x_i))}\pi(x)(1-\pi(x))xi_j]$ = $-\frac{1}{N}\sum_{i=1}^{N}[(y_i-\pi(x_i))xi_j]$ = $\frac{1}{N}\sum_{i=1}^{N}[(\pi(x_i)-y_i)xi_j]$

$xi_j$ 对应的是 $x_i=(xi_0,...xi_7)$ 这个矩阵向量的 $w_j$ 对应的值

牛顿法：(需要二阶可导)

在现有极小点估计值的附近对 f(x) 做二阶泰勒展开，进而找到极小点的下一个估计值。

$\varphi(w)=J(w^k)+J'(w^k)(w-w^k)+\frac{1}{2}J''(w^k)(w-w^k)^2$

$\varphi(w)'=0 ，可得：w^{k+1}=w^k-\frac{J'(w^k)}{J''(w^k)}$

牛顿法，拟牛顿法用的更多

正则化：（带正则化的线性模型比较不容易对稀疏特征过拟合）

先验知识：L1正则先验分布是Laplace分布，L2正则先验分布是Gaussian分布

先验知识怎么来的看另一篇文章

有两种方法：
（1）适用于梯度下降的，带约束条件的优化求解（拉格朗日乘子法）

$J(w)=-\frac{1}{N}ln(L(w))=-\frac{1}{N}(\sum(y_iln(p(x_i))+(1-y_i)ln(1-p(x_i))))$

$\min_{w}L(w,a)=J(w)+a(||w||_2) 或者 \min_{w}L(w,a)=J(w)+a(||w||_1)$

$||x||_n$ 是范数 $\sqrt[n]{x_1^n+x_2^n+...}$

（2）使用于牛顿法的，贝叶斯学派的：最大后验概率
< 1 > $L1$ 正则化

image.png

LASSO 回归，相当于为模型添加了这样一个先验知识：w 服从零均值拉普拉斯分布

$w=arg\min_{w}( \sum_{i=1}^{m}(f(x_i)-y_i)^2+\lambda\sum_{i=1}^{m}||w_i|| )$

< 2 > $L2$ 正则化
对参数 w 引入零均值高斯先验

$w=arg \min_{w}(\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i-w^Tx_i)^2+\lambda w^Tw)$

逻辑斯蒂回归跟线性回归比有什么区别？

虽然逻辑回归能够用于分类，不过其本质还是线性回归。它仅在线性回归的基础上，在特征到结果的映射中加入了一层sigmoid函数（非线性）映射，把 $y \in (-\infty,+\infty)$ 压缩到 $[0,1]$ ，即先把特征线性求和，然后使用sigmoid函数来预测。然而，正是这个简单的逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。因为他削弱了因为度量形式（米or厘米）

使用Softmax（神经网络）还是K个逻辑回归做k个分类问题？

如果你在开发一个音乐分类的应用，需要对k种类型的音乐进行识别，那么是选择使用 Softmax 分类器呢，还是使用 logistic 回归算法建立 k 个独立的二元分类器呢？

答案：如果你的类别是互斥的，那么用Softmax，否则用K个逻辑回归。如果在你的数据集中，有的歌曲不属于以上四类的其中任何一类，那么你可以添加一个“其他类”，并将类别数 k 设为5。

如果你的四个类别如下：人声音乐、舞曲、影视原声、流行歌曲，那么这些类别之间并不是互斥的。例如：一首歌曲可以来源于影视原声，同时也包含人声。这种情况下，使用4个二分类的 logistic 回归分类器更为合适。这样，对于每个新的音乐作品，我们的算法可以分别判断它是否属于各个类别。

现在我们来看一个计算视觉领域的例子，你的任务是将图像分到三个不同类别中。

假设这三个类别分别是：室内场景、户外城区场景、户外荒野场景。你会使用Softmax回归还是 3个logistic 回归分类器呢？
现在假设这三个类别分别是室内场景、黑白图片、包含人物的图片，你又会选择 Softmax回归还是多个 logistic 回归分类器呢？

在第一个例子中，三个类别是互斥的，因此更适于选择Softmax回归分类器。而在第二个例子中，建立三个独立的 logistic回归分类器更加合适。

并行化逻辑回归

$J(w)=-\frac{1}{N} \sum_{i=1}^{N}[y_i(wx_i)-log(1+e^{wx_i})]$
$g_j=\frac{\partial J(w)}{\partial w_j}=\frac{1}{N}\sum_{i=1}^{N}[\frac{e^{wx_i}}{(1+e^{wx_i})}x_i-y_ix_i]$
$w_j^{k+1}=w_j^{k}+ag_j$

注意到 $w=(w_1,...w_d)$ 的维度为d，需要对数据的每一维都使用上式更新。可以看到，一次更新的开销数据量N以及维度d有关。

数据并行：

这是最简单也是最容易想到的数据并行方式了，假设有a台机器，则把数据随机分到a台机器上，每台机器数据不重复，这样每台机器有N/a条样本，每个样本有d个特征。每台机器分别对其样本计算 $(h(x_i)−y_i)x_{ij}$ ，最后求和合并即可。

这个方式解决了数据量大的问题，但是实际中特征数量可能很高。

特征并行：

特征并行就是对每个样本的d个特征进行划分，假设有b台机器，那么，每台机器的有 $d/b$ 个特征，N个样本点，每台机器对其拥有的特征 $j$ 分别计算 $(h(xi)−yi)x_{ij}$ ，然后和其它机器同步更新后的参数即可。

数据+特征并行

数据+特征并行就是上面两种的结合，如下图所示，将数据分为a * b块，其中，即将数据按水平划分，又在特征上垂直划分。

计算w^Tx.png

先分别计算 $\sum_jw_jx_{ij}$ ，。然后按照行号 $j$ （即单个样本点）相同的进行归并。然后再按照列（各个样本之间）计算求均值归并。

Google DistBelief

Google实现了一个名为DistBelief的框架，采用parameter server来同步参数。
文章链接

image.png

最后编辑于：2020.02.27 16:36:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,670评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,928评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,926评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,238评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,112评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,138评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,545评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,232评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,496评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,596评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,369评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,226评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,600评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,906评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,185评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,516评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,721评论 2赞 335

逻辑斯蒂回归（LR）

逻辑斯蒂分布：

二项逻辑斯蒂回归模型：（其实是个二分类）

求解逻辑回归的方法：

正则化：（带正则化的线性模型比较不容易对稀疏特征过拟合）

逻辑斯蒂回归跟线性回归比有什么区别？

并行化逻辑回归

Google DistBelief

推荐阅读更多精彩内容