吴恩达机器学习——第四章：多变量线性回归

4.1多维特征

目前为止，我们探讨了单变量/特征的回归模型，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为 $（x_1,x_2,...,x_n）$ 。如下图

在此，引入新的注释。

$n$ 代表特征的数量

$x^{(i)}$ 代表第 $i$ 个训练实例，是特征矩阵中的第 $i$ 行，是一个向量。

比方说 $x^{(2)}$ 代表是特征矩阵中的第 $2$ 行

${x_j}^{(i)}$ 代表特征矩阵中第 $i$ 行的第 $j$ 个特征，也就是第 $i$ 个训练实例的第 $j$ 个特征。如上图 ${x_2}^{(2)}=3，{x_3}^{(2)}=2$ 。

支持多变量的假设 $h$ 表示为： ${h_\theta }(x)=\theta _0 x_0+\theta _1 x_1+\theta _2 x_2+...+\theta _n x_n$

此时模型中的参数是一个 $n+1$ 维的向量，任何一个训练实例也就是 $n+1$ 维的向量，特征矩阵 $X$ 的维度是 $m\ast (n+1)$ 。因此公式可以简化为： $h_\theta (x)={\theta }^TX$ ，其中商标 $T$ 代表矩阵转置。

4.2 多变量梯度下降

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，则这个代价函数是所有建模误差的平方和，即： $J({\theta }_0,{\theta }_1,...{\theta }_n)=\frac{1}{2m}\sum\nolimits_{i=1}^m{(h_ {\theta }(x^{(i)})-y^{(i)})}^2$ 其中 ${h_\theta }(x)=\theta _0 x_0+\theta _1 x_1+\theta _2 x_2+...+\theta _n x_n$ 。

我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。多变量线性回归的批量梯度下降算法为：

求导数后得到：

当 $n\geq 1$ 时，

$\theta _0:=\theta _0-a\frac{1}{m} \sum_{i=1}^m(h_\theta (x^{(i)})- y^{(i)}){x_0}^{(i)}$

$\theta _1:=\theta _1-a\frac{1}{m} \sum_{i=1}^m(h_\theta (x^{(i)})- y^{(i)}){x_1}^{(i)}$

$\theta _2:=\theta _2-a\frac{1}{m} \sum_{i=1}^m(h_\theta (x^{(i)})- y^{(i)}){x_2}^{(i)}$

我们开始随机选择一系列的参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直到收敛。

代码示例：计算代价函数 $J({\theta }_0,{\theta }_1,...{\theta }_n)=\frac{1}{2m}\sum\nolimits_{i=1}^m{(h_ {\theta }(x^{(i)})-y^{(i)})}^2$ ，其中： ${h_\theta }(x)=\theta ^TX=\theta _0 x_0+\theta _1 x_1+\theta _2 x_2+...+\theta _n x_n$

4.3 梯度下降法实践1-特征缩放

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 $0-2000$ 平方英尺，而房间数量的值则是 $0-5$ ，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。

解决的方法是尝试将所有特征的尺度都尽量缩放到 $-1$ 到 $1$ 之间。如下图，左图是为处理的代价函数等高线图，右图是已处理过的代价函数等高线图。

而最简单的方法就是令 $x_n=\frac{x_n-\mu _n}{S_n}$ ,其中， $\mu _n$ 是均值， $S_n$ 为标准差。

在用数据之前，会对数据做预处理，我们常常说，做归一化或者是标准化，就和特征缩放相似。

4.4梯度下降法实践2-学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。如下图：

在上图中，横坐标为迭代次数，纵坐标为代价函数（最小），可以看出，随着迭代次数的增加，代价函数也在减小。当你迭代到300次时，如果你再增加迭代次数，曲线开始变得平坦，代价函数基本不怎么减少了，那么我们可以认为梯度下降算法差不多已经收敛了。这条曲线可以帮我们判断最佳迭代次数。

另外，根据模型的不同，代价函数的不同，每次迭代要增加的次数也不同，这个需要根据实际情况进行判断。

也有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值（例如0.001）进行比较，但通常看上面这样的图表更好。

梯度下降算法的每次迭代受到学习率的影响，如果学习率 $\alpha$ 小，则达到收敛所需的迭代次数会非常高；如果学习率 $\alpha$ 过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑的学习率有： $\alpha =0.01,0.03,0.1,0.3,1,3,10$

4.5 特征和多项式回归

如放假预测问题：

$h_\theta (x)=\theta _0+\theta _1\times frontage+\theta _2\times depth$

其中 $x_1=frontage$ (临街宽度）， $x_2=depth$ (纵向深度）， $x=frontage*depth=area$ (面积），则： $h_\theta (x)=\theta _0+\theta _1 x$

线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个二次方模型： $h_\theta (x)=\theta _0+\theta _1 x+\theta _2{x_2}^2$ ,或者是塞次方模型 $h_\theta (x)=\theta _0+\theta _1 x+\theta _2{x_2}^2+\theta _3{x_3}^2$ ，如下图：

通常我们需要先观察数据然后再决定准备尝试怎样的模型。另外，我们可以令： $x_1={x_2}^2x_3={x_3}^2$ ,从而将模型转化为线性回归模型。

根据函数图形特性，我们还可以使： $h_\theta (x)=\theta _0+\theta _1 size+\theta _2{size}^2$ 或者： $h_\theta (x)=\theta _0+\theta _1 size+\theta _2 \sqrt{size}$

选择什么样的模型还是要根据实际数据情况，选择最佳的你和模型。

4.6 正规方程

到目前为止，我们都在使用梯度下降算法，但是对于某些线性回归问题，正规方程方法是更好的解决方案。如：

正规方程是通过求解下面的方程来找出使得代价函数最小的参数的：

假设我们的训练集特征矩阵为 $X$ （包含了 $x_0=1$ ）并且我们的训练集结果为向量 $y$ ，则利用正规方程解出向量 $\theta ={（X^TX）}^{-1}X^Ty$ ，其中上标 $T$ 代表矩阵转置，上标 $-1$ 代表矩阵的逆。设矩阵 $A=X^TX$ ，则： ${（X^TX）}^{-1}=A^{-1}$

以下表数据为例：

即

运用正规方程方法求解参数：

注：对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的。

梯度下降与正规方程的比较：

总结一下，只要特征变量的数目并不大，标准方程是一个很好的计算参数 $\theta$ 的替代方法。具体地说，只要特征变量数量小于一万，我通常使用标准方程法，而不使用梯度下降法。

随着我们要讲的学习算法越来越复杂，例如，当我们讲到分类算法，像逻辑回归算法，我们会看到，实际上对于那些算法，并不能使用标准方程法。对于那些更复杂的学习算法，我们将不得不仍然使用梯度下降法。因此，梯度下降法是一个非常有用的算法，可以用在有大量特征变量的线性回归问题。或者我们以后在课程中，会讲到的一些其他的算法，因为标准方程法不适合或者不能用在它们上。但对于这个特定的线性回归模型，标准方程法是一个比梯度下降法更快的替代算法。所以，根据具体的问题，以及你的特征变量的数量，这两种算法都是值得学习的。

最后编辑于：2021.01.26 15:15:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,271评论 5赞 466
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,725评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,252评论 0赞 328
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,634评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,549评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,985评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,471评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,128评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,257评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,233评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,235评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,940评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,528评论 3赞 302
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,623评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,858评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,245评论 2赞 344
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,790评论 2赞 339