普通最小二乘法的推导证明

在统计学中,普通最小二乘法(Ordinary Least Squares,OLS)是一种用于在线性回归模型中估计未知参数的线性最小二乘法。 OLS通过最小二乘法原则选择一组解释变量的线性函数的参数:最小化给定数据集中观察到的因变量(被预测变量的值)与预测变量之间残差的平方和。

一元线性回归求解过程

我们先以一元线性模型为例来说明。

假设有一组数据X=\{({{x}_{1}},{{y}_{1}},\cdots ,({{x}_{m}},{{y}_{m}})\},我们希望求出对应的一元线性模型来拟合这一组数据:

y={{\beta }_{0}}+{{\beta }_{1}}x
既然要拟合,总要有一个拟合程度高低的判断标准,上文说到,最小二乘法中使用的就是误差平方和方法,所以,这时候损失函数,或者说我们的目标函数就是:

J(\beta )=\sum\limits_{i=0}^{m}{{{({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})}^{2}}}
有了这个目标函数,我们要做的就是求出{{\beta }_{0}}{{\beta }_{1}}使得J(\beta )最小,在这里就是极小值。

求极值的一个很好的方法就是求导,在这里因为有多个参数,所以,我们要分别对{{\beta }_{0}}{{\beta }_{1}}求偏导:
\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}=\sum\limits_{i=0}^{m}{2({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})(-{{x}_{i}})}=2\sum\limits_{i=0}^{m}{({{\beta }_{1}}x_{i}^{2}+{{\beta }_{0}}{{x}_{i}}-{{x}_{i}}{{y}_{i}})}

\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}=\sum\limits_{i=0}^{m}{2({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})(-1)}=2\sum\limits_{i=0}^{m}{({{\beta }_{1}}{{x}_{i}}+{{\beta }_{0}}-{{y}_{i}})(-1)}=2(m{{\beta }_{1}}\frac{\sum\limits_{1}^{m}{{{x}_{i}}}}{m}+m{{\beta }_{0}}-m\frac{\sum\limits_{1}^{m}{{{y}_{i}}}}{m})

因为\bar{x}=\frac{\sum\limits_{1}^{m}{{{x}_{i}}}}{m},\bar{y}=\frac{\sum\limits_{1}^{m}{{{y}_{i}}}}{m}, 所以,上面第二个,也就是对{{\beta }_{0}}的偏导可以转化为:
\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}=2(m{{\beta }_{1}}\bar{x}+m{{\beta }_{0}}-m\bar{y})

我们知道,目标函数取得极值时,偏导一定是等于0的,所以,我们令\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}等于0,于是有:
2(m{{\beta }_{1}}\bar{x}+m{{\beta }_{0}}-m\bar{y})=0

{{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}

接着,我们继续回到上面第一个偏导,也就是对{{\beta }_{1}}的偏导\frac{\partial J(\beta )}{\partial {{\beta }_{1}}},令\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}=0,并将{{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}代入,得:
2\sum\limits_{i=0}^{m}{({{\beta }_{1}}x_{i}^{2}+(\bar{y}-{{\beta }_{1}}\bar{x}){{x}_{i}}-{{x}_{i}}{{y}_{i}})}=0

{\beta}_1 = \frac{\sum_{i=1}^m{x_iy_i} - \bar{y}\sum_{i=1}^mx_i} {\sum_{i=1}^mx_i^2 - \bar{x} \sum_{i=1}^mx_i}

根据求和性质可得:
{\beta}_1 = \frac{\sum_{i=1}^m{x_iy_i} - \bar{y}\sum_{i=1}^mx_i} {\sum_{i=1}^mx_i^2 - \bar{x} \sum_{i=1}^mx_i} = \frac{\sum_{i=1}^{m}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}}{\sum_{i=1}^{m}{{{({{x}_{i}}-\bar{x})}^{2}}}}
求和性质:

求和性质,具体可以参考Introductory Econometrics A Modern Approach (Fourth Edition) 一书(计量经济学导论,第4版,杰弗里·M·伍德里奇 著)的附录A
\begin{aligned} &\sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)\\ &=\sum_{i=1}^{m}\left(x_{i} y_{i}-x_{i} \bar{y}-\bar{x} y_{i}+\bar{x} \bar{y}\right)\\ &=\sum_{i=1}^{m} x_{i} y_{i}-\sum_{i=1}^{m} x_{i} \bar{y}-\sum_{i=1}^{m} \bar{x} y_{i}+\sum_{i=1}^{m} \bar{x} \bar{y}\\ &=\sum_{i=1}^{m} x_{i} y_{i}-m \bar{x} \bar{y}-m \bar{x} \bar{y}+m \bar{x} \bar{y}\\ &=\sum_{i=1}^{m} x_{i} y_{i}-\bar{y} \sum_{i=1}^{m} x_{i} \end{aligned}

分子得证

\sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2}=\sum_{i=1}^{m}\left(x_{i}^{2}-2 x_{i} \bar{x}+\bar{x}^{2}\right) \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-2 \bar{x} \sum_{i=1}^{m} x_{i}+\sum_{i=1}^{m} \bar{x}^{2} \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-2 m \bar{x}^{2}+m \bar{x}^{2} \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-m \bar{x}^{2}=\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}

分母得证

有了上述推导证明,普通最小二乘法一般形式可以写成(字母盖小帽表示估计值,具体参考应用概率统计):

y = \beta_1 x + \beta_0 的普通最小二乘解为:
{\beta}_1 = \frac{\sum_{i=1}^{m}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}}{\sum_{i=1}^{m}{{{({{x}_{i}}-\bar{x})}^{2}}}}

{{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}

多元线性回归求解过程

对于多元的情况,需要使用矩阵运算来求解,先用矩阵表示:
X\beta =y

其中,
X=\left[ \begin{matrix} 1 & {{x}_{12}} & \cdots & {{x}_{1n}} \\ 1 & {{x}_{22}} & \cdots & {{x}_{2n}} \\ \cdots & \cdots & \cdots & \cdots \\ 1 & {{x}_{m2}} & \cdots & {{x}_{mn}} \\ \end{matrix} \right],\beta =\left[ \begin{matrix} {{\beta }_{0}} \\ {{\beta }_{1}} \\ \cdots \\ {{\beta }_{n}} \\ \end{matrix} \right],y=\left[ \begin{matrix} {{y}_{1}} \\ \cdots \\ {{y}_{m}} \\ \end{matrix} \right]
目标函数:
J(\beta )={{\sum\limits_{i=1}^{m}{\left| {{y}_{i}}-\sum\limits_{j=1}^{n}{{{x}_{ij}}{{\beta }_{j}}} \right|}}^{2}}={{\left\| y-X{{\beta }^{T}} \right\|}^{2}}
如果要使上述目标函数最小,显然其结果为0,即:
y- {X} {\beta}^T = 0
也就是说:
{X}\beta^T = y \\ {X}^T {X} \beta^T = {X}^Ty \\ ( {X}^T {X})^{-1} {X}^T{X} \beta^T = ( {X}^T {X})^{-1} {X}^T y \\ {\beta}^T = ( {X}^T {X})^{-1} {X}^Ty

最终获得解:
{{\beta }^{T}}={{({{X}^{T}}X)}^{-1}}{{X}^{T}}y
可以看出,对于一般的最小二乘法多元求解,使用矩阵运算即可,都不需要迭代 。

此处不做证明,具体可参考《应用概率统计》 张国权著 第九章 回归分析

最小二乘法 VS 梯度下降法

通过上面推导可知,最小二乘法可以矩阵运算求解,这种方法十分方便快捷,但这种方法不是万能的,因为线性最小二乘的解是closed-form即 x=(A^TA)^{-1}A^Tb,而非线性最小二乘没有closed-form(即 (A^TA)没有可逆矩阵),这时候矩阵运算求解就行不通,这时候就可以通过迭代法(梯度下降法)求最优解。

来具体说说这两种方法的区别:

最小二乘法 梯度下降法
不需要设置学习率 需要设置学习率
一次运算得出最优解 需要多次迭代求解最优解
矩阵求逆得复杂度时O(n^3),所以数据维度越大,效率越低,甚至不可接受 维度较大时也适用
只适用于线性模型 适用性高,各种模型都可以使用

迭代法,即在每一步update未知量逐渐逼近解,可以用于各种各样的问题(包括最小二乘),比如求的不是误差的最小平方和而是最小立方和。

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。高斯-牛顿法是另一种经常用于求解非线性最小二乘的迭代法(一定程度上可视为标准非线性最小二乘求解方法)。

还有一种叫做Levenberg-Marquardt的迭代法用于求解非线性最小二乘问题,就结合了梯度下降和高斯-牛顿法。

所以如果把最小二乘看做是优化问题的话,那么梯度下降是求解方法的一种,x=(A^TA)^{-1}A^Tb是求解线性最小二乘的一种,高斯-牛顿法和Levenberg-Marquardt则能用于求解非线性最小二乘。

莱文贝格-马夸特方法(Levenberg–Marquardt algorithm)能提供数非线性最小化(局部最小)的数值解。此算法能借由执行时修改参数达到结合高斯-牛顿算法以及梯度下降法的优点,并对两者之不足作改善(比如高斯-牛顿算法之反矩阵不存在或是初始值离局部极小值太远)

然后Levenberg-Marquardt方法的好处就是在于可以调节:

如果下降太快,使用较小的λ,使之更接近高斯牛顿法

如果下降太慢,使用较大的λ,使之更接近梯度下降法

欢迎关注微信公众号
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容