逻辑斯蒂回归(LR)

  • 在广告计算和推荐系统中使用频率极高
  • 带正则化的线性模型比较不容易对稀疏特征过拟合

逻辑斯蒂分布:

f(y)=F′(y)=\frac{e^{−(y−μ)/γ}}{γ(1+e^{−(y−μ)/γ})^2},代表x映射的y点(y=wx+b)在该处的概率

F(y)=P(Y \le y)=\frac{1}{1+e^{-(y−μ)/γ}},表示(x,y)可能被分类为1(位于该直线以下)的概率

μ为位置参数,γ>0为形状参数。

LR模型最终形式表现为一种概率模型,这是和几何分类模型最大的区别,如SVMKNN等。

image.png

二项逻辑斯蒂回归模型:(其实是个二分类)

P(Y=1|x)=\frac{e^{wx+b}}{1+e^{wx+b}} (\hat{y}=wx+b)

P(Y=0|x)=\frac{1}{1+e^{wx+b}}

P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)

极大似然估计法:y_i=\{ 0,1\}y_i为决定Y=真/假,数据集T=(x_1,y_1),...

L(w))=\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}(交叉熵)

max ln(L(w))=log(\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i})(交叉熵)

=\sum_{i=1}^{N}[y_i(wx_i)-log(1+e^{wx_i})]

  • 如果用交叉熵,LR是凸函数。softmax回归也是凸函数。

这样一来,问题就变成了以对数似然函数为目标函数的,以求\pi(x)可能性最大时w的值为目的的最优化问题。

  • 我个人的理解是对于

\begin{cases} wx+b > 0 ,分类为0 \\ wx+b < 0 , 分类为1 \end{cases}

  • 选择(x_0,y_0)为回归线与x=x_0交汇点,则被可能被分类为1的概率为p(Y \le y_0) = \pi(x),然后再计算\max_{w}\pi(x)^{k}(1-\pi(x))^{n-k}的极大似然估计得到最可能的\pi(x)(含w)对应的w
红色为 0 黑色为 1 .png

求解逻辑回归的方法:

梯度下降:

log(L(w))=log(\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i})=\sum_{i=1}^{N}[y_i(wx_i)-log(1+e^{wx_i})]

最大化L(w)等价于最小化损失函数J(w),因为除了N,所以求导可以直接得到梯度

J(w)=-\frac{1}{N}log(L(w))=-\frac{1}{N}(\sum(y_iln(p(x_i))+(1-y_i)ln(1-p(x_i))))

image.png

g_j=\frac{\partial J(w)}{\partial w_j}
w_j^{k+1}=w_j^{k}+ag_j

  • 梯度下降法实现相对简单,但是其收敛速度往往不尽人意,可以考虑使用随机梯度下降法来解决收敛速度的问题
  • 你可能很奇怪b怎么不见了,因为w=(w_1,...,w_n,b)^T,x=(x_1,...,x_n,1)^T

延申拓展:

g_j=\frac{\partial J(w)}{\partial w_j}=-\frac{1}{N}\frac{\partial\sum_{i=1}^{N}(y_ilog(\pi_w(x_i))+(1-y_i)(log(1-\pi(x_i))))}{\partial w_j}=-\frac{1}{N}\frac{\partial\sum_{i=1}^{N}(y_ilog(\pi_w(x_i))+(1-y_i)(log(1-\pi(x_i))))}{\partial w_j}=-\frac{1}{N}\sum_{i=1}^{N}(y_i\frac{1}{\pi(x)}\frac{\partial \pi(x)}{\partial w_j}+(1-y_i)\frac{1}{1-\pi(x_i)}\frac{\partial(1-\pi(x_i))}{\partial w_j})=-\frac{1}{N}\sum_{i=1}^{N}[(\frac{y_i}{\pi(x_i)}+\frac{y_i-1}{1-\pi(x_i)})\frac{\partial \pi(x_i)}{\partial w_j}]=-\frac{1}{N}\sum_{i=1}^{N}[\frac{y_i-\pi(x)}{\pi(x)(1-\pi(x_i))}\frac{1}{(1+e^{-(wx+b)})^2}e^{-(wx+b)}\frac{\partial w_jx_j}{\partial w_j}]=-\frac{1}{N}\sum_{i=1}^{N}[\frac{y_i-\pi(x)}{\pi(x_i)(1-\pi(x_i))}\pi(x)(1-\pi(x))xi_j]=-\frac{1}{N}\sum_{i=1}^{N}[(y_i-\pi(x_i))xi_j]=\frac{1}{N}\sum_{i=1}^{N}[(\pi(x_i)-y_i)xi_j]

  • xi_j对应的是x_i=(xi_0,...xi_7)这个矩阵向量的w_j对应的值

牛顿法:(需要二阶可导)

在现有极小点估计值的附近对 f(x) 做二阶泰勒展开,进而找到极小点的下一个估计值。

\varphi(w)=J(w^k)+J'(w^k)(w-w^k)+\frac{1}{2}J''(w^k)(w-w^k)^2

\varphi(w)'=0 ,可得 :w^{k+1}=w^k-\frac{J'(w^k)}{J''(w^k)}

  • 牛顿法,拟牛顿法用的更多

正则化:(带正则化的线性模型比较不容易对稀疏特征过拟合)

先验知识:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布

  • 先验知识怎么来的看另一篇文章

有两种方法:
(1)适用于梯度下降的,带约束条件的优化求解(拉格朗日乘子法)

J(w)=-\frac{1}{N}ln(L(w))=-\frac{1}{N}(\sum(y_iln(p(x_i))+(1-y_i)ln(1-p(x_i))))

\min_{w}L(w,a)=J(w)+a(||w||_2) 或者 \min_{w}L(w,a)=J(w)+a(||w||_1)

  • ||x||_n是范数\sqrt[n]{x_1^n+x_2^n+...}

(2)使用于牛顿法的,贝叶斯学派的:最大后验概率
< 1 > L1 正则化

image.png

LASSO 回归,相当于为模型添加了这样一个先验知识:w 服从零均值拉普拉斯分布

w=arg\min_{w}( \sum_{i=1}^{m}(f(x_i)-y_i)^2+\lambda\sum_{i=1}^{m}||w_i|| )

< 2 > L2 正则化
对参数 w 引入零均值高斯先验

w=arg \min_{w}(\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i-w^Tx_i)^2+\lambda w^Tw)


逻辑斯蒂回归跟线性回归比有什么区别?

虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,把y \in (-\infty,+\infty)压缩到[0,1],即先把特征线性求和,然后使用sigmoid函数来预测。然而,正是这个简单的逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。因为他削弱了因为度量形式(米or厘米)


  • 使用Softmax(神经网络)还是K个逻辑回归做k个分类问题?

如果你在开发一个音乐分类的应用,需要对k种类型的音乐进行识别,那么是选择使用 Softmax 分类器呢,还是使用 logistic 回归算法建立 k 个独立的二元分类器呢?

答案: 如果你的类别是互斥的,那么用Softmax,否则用K个逻辑回归。如果在你的数据集中,有的歌曲不属于以上四类的其中任何一类,那么你可以添加一个“其他类”,并将类别数 k 设为5。

如果你的四个类别如下:人声音乐、舞曲、影视原声、流行歌曲,那么这些类别之间并不是互斥的。例如:一首歌曲可以来源于影视原声,同时也包含人声 。这种情况下,使用4个二分类的 logistic 回归分类器更为合适。这样,对于每个新的音乐作品,我们的算法可以分别判断它是否属于各个类别。

现在我们来看一个计算视觉领域的例子,你的任务是将图像分到三个不同类别中。

  1. 假设这三个类别分别是:室内场景、户外城区场景、户外荒野场景。你会使用Softmax回归还是 3个logistic 回归分类器呢?
  2. 现在假设这三个类别分别是室内场景、黑白图片、包含人物的图片,你又会选择 Softmax回归还是多个 logistic 回归分类器呢?

在第一个例子中,三个类别是互斥的,因此更适于选择Softmax回归分类器 。而在第二个例子中,建立三个独立的 logistic回归分类器更加合适。


并行化逻辑回归

J(w)=-\frac{1}{N} \sum_{i=1}^{N}[y_i(wx_i)-log(1+e^{wx_i})]
g_j=\frac{\partial J(w)}{\partial w_j}=\frac{1}{N}\sum_{i=1}^{N}[\frac{e^{wx_i}}{(1+e^{wx_i})}x_i-y_ix_i]
w_j^{k+1}=w_j^{k}+ag_j

注意到w=(w_1,...w_d)的维度为d,需要对数据的每一维都使用上式更新。可以看到,一次更新的开销数据量N以及维度d有关。

数据并行:

这是最简单也是最容易想到的数据并行方式了,假设有a台机器,则把数据随机分到a台机器上,每台机器数据不重复,这样每台机器有N/a条样本,每个样本有d个特征。每台机器分别对其样本计算(h(x_i)−y_i)x_{ij},最后求和合并即可。

这个方式解决了数据量大的问题,但是实际中特征数量可能很高。

特征并行:

特征并行就是对每个样本的d个特征进行划分,假设有b台机器,那么,每台机器的有d/b个特征,N个样本点,每台机器对其拥有的特征j分别计算(h(xi)−yi)x_{ij},然后和其它机器同步更新后的参数即可。

数据+特征并行

数据+特征并行就是上面两种的结合,如下图所示,将数据分为a * b块,其中,即将数据按水平划分,又在特征上垂直划分。

计算w^Tx.png

先分别计算\sum_jw_jx_{ij},。然后按照行号j(即单个样本点)相同的进行归并。然后再按照列(各个样本之间)计算求均值归并。


Google DistBelief

Google实现了一个名为DistBelief的框架,采用parameter server来同步参数。
文章链接

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容