理解回归分析的世界

监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。

回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照[自变量]和[因变量]之间的关系类型,可分为[线性回归]分析和[非线性回归]分析。如果在回归分析中,只包括一个[自变量]和一个[因变量],且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为[多重线性回归]分析。

一元线性回归

回归分析中,如果只包括一个自变量x和一个因变量y,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。

那么我们需要做的是致力于找出自变量与因变量之间的连续关系。

对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。将会有无数条直线来描述数据集中的线性关系,选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。我们使用最小二乘法来确定最优的直线。

最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

对于观察数据若放在xy直角坐标系中,是一个散点图,假设有一条直线y=a+bx是无数条通过数据集描述的直线,那么要通过最小二乘法确定最佳拟合的a0和a1,将实测值Yi与利用计算值Yj(Yj=a+bXi)差(Yi-Yj)的平方和∑(Yi-Yj)^2最小为“优化判据”。

求解过程:
令:Di =∑(Yi-Yj)^2
把Yj=a+bXi带入φ得到
Di =∑(Yi-a-bXi)^2
当∑(Yi-Yj)^2最小时可用函数 φ 对a、b求偏导数,令这两个偏导数等于零。


求偏导

整理后对方程组求解
整理后.jpg

最终解得
Paste_Image.png

由上述过程计算得出最佳拟合一元线性公式。

简例理解最小二乘法

有如下的简单数据集:


Paste_Image.png

通过excel我们可以快速的得出如下的公式:


Paste_Image.png

下图红线的距离为Yi-Yj:
Paste_Image.png

确定y=1.9643x+1为最优的直线的过程是通过实际的每个点到此条直线上对应点的距离(上图红色)的平方和最小,即∑(Yi-Yj)^2最小。

多元线性回归

如果回归分析中包括两个或两个以上的自变量x1,x2...xi,且因变量y和自变量x1,x2...xi之间是线性关系,则称为多元线性回归分析。
多元线性回归可以写作如下方式:
Y=b0+b1x1+…+bkxk+e
其中,b0为常数项,b1,b2…bk为回归系数b1为X1,X2…Xk固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为X1,X2…Xk固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等。

建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;
(3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度;
(4)自变量应具有完整的统计数据,其预测值容易确定。
多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和(Σe)为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组


解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得


其中第二种的P(Y=1|x)=y。

逻辑回归

逻辑回归,又名逻辑斯谛回归(logistic regression)是经典分类方法。是一个非常经典的二项分类模型,也可以扩展为多项分类模型。属于对数线性模型。

逻辑回归就是把 线性回归的y 变成了 y的衍生物,是一种 y的广义理解。

我们将线性回归的公式的权值向量(系数)和输入向量(自变量)加以扩充,记做w(欧米伽)和x,即w=(w1,w2...wn,b)的向量,x=(x1,x2...xn,1)的向量,即z=wx,这里我们使用z来代替原本的y以便于区分新的y。那么我们对z做一次衍生,y=f(z)。由此可知z=wx是普通的线性关系,而z到y是一种代数关系。

对预测值的对数函数,需要满足单调可微的性质,且方便进行二项分类,于是选取了S形曲线Sigmoid函数: f(s) = 1 / (1 + exp(-s)), s 取值范围是整个实数域, f(x) 单调递增,0 < f(x) < 1。


Sigmoid 函数在有个很漂亮的“S”形,如下图所示(引自维基百科):



此时将连续性的z,z的范围在(-∞, +∞),变成的连续性的y,y的范围在(0, 1)。

第一种正推思想:

通过Sigmoid 函数衍生出:

y=1/(1+exp(-z))

那么:

exp(-z)=(1/y) - 1

对两方取ln:

-z=ln((1-y)/y)

于是得出:

z=ln(y/(1-y))

带入公式z=wx可得:

ln(y/(1-y))=wx

此时,我们找到了x与y之间的关系。

第二种反证思想:

逻辑斯蒂回归模型是如下的条件概率分布:


Paste_Image.png

一件事情发生的几率为该事件发生的概率与不发生的概率的比值,如果发生的概率为p,那么几率表示为p/1-p。该事件的对数几率为:


Paste_Image.png

综合上述两种公式可得:


Paste_Image.png

逻辑回归的思想应用

y的范围在(0, 1),我们可以将其想象成一种概率,计算出的y可以想象成是这个分类的概率,通过数据集中的x和Y(结果为0或1),求得w向量,对于预测值的新的x,根据已有的w计算y(概率),通过业务场景界定y的大小来判断是否为此分类。

同理,在多类分类问题中,对于多类分类问题,可以将其看做成二类分类问题:保留其中的一类,剩下的作为另一类。对于每一个类 i 训练一个逻辑回归模型的分类器,并且预测y = i时的概率;对于一个新的输入变量x, 分别对每一个类进行预测,取概率最大的那个类作为分类结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,527评论 5 470
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,314评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,535评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,006评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,961评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,220评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,664评论 3 392
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,351评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,481评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,397评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,443评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,123评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,713评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,801评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,010评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,494评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,075评论 2 341

推荐阅读更多精彩内容

  • 来源: http://www.douban.com/group/topic/14820131/ 调整变量格式: f...
    MC1229阅读 6,901评论 0 5
  • (转自http://www.douban.com/group/topic/14820131/,转自人大论坛) 调整...
    f382b3d9bdb3阅读 10,105评论 0 8
  • 【概述】 SVM训练分类器的方法是寻找到超平面,使正负样本在超平面的两侧(分类正确性即“分得开”),且样本到超平面...
    sealaes阅读 10,947评论 0 7
  • 当你可以跟一个人不说话 分享片刻寂静 且不会觉得尴尬 那一刻 你会明白 你遇到了对的人
    奧秘阅读 195评论 0 1
  • 1.WHAT 第一,一旦你说了一句话,因为人类最本质的自恋需求,你会把事情朝这句话预言的方向去推动,以此来证明,你...
    我要的只是成长阅读 255评论 0 0