(来源:CommonLounge)
线性回归(Linear Regression)是一个简单的机器学习模型,用于解决回归问题。如:目标变量是一个实际的值。
一、问题示例
我们先从一个例子开始。假设我们有一个数据集,里面有房屋面积 (以平方英尺为单位)和价格(以千美元计)信息。我们的任务是建立一个机器学习模型,能够根据房屋面积来预测价格。下图是我们的数据集内容:
用图形来表达数据集如下:
在线性回归中,我们将一条直线“拟合”到上面的数据点。图示如下:
举例说,有人盖一栋面积为1550平方的房屋,让我们预测将来出售的价格?从下图来看,我们看到对应,的值是200。
因此,我们预测这个房屋大概价格为$200k。
二、机器学习组成
每个机器学习的算法由三个部分组成:
1. 表示(Representation)
一个机器学习模型的表示决定了算法能学到什么(类型的)东西。在线性回归中,模型的表示就是一条直线。
2. 评价(Evaluation)
用代价函数(cost function)来对模型的优劣打分。例如:在线型回归中,表示方式可以有无限条直线。代价函数就是对每条线的优劣进行打分。“最佳路线”的代价最小。
3. 优化(Optimization)
优化就是给定一堆模型和代价函数里找到最佳模型。
这次我们先谈表示(representation)和评价(evaluation)。下次我们谈优化(梯度下降)。
三、线性回归
1. 简单线性回归
在简单线性回归(Simple Linear Regression)里,我们通过拟合一条称为回归线(regression line)的直线来建立目标变量和输入变量之间的关系。
通常,一条线可以用线性方程来表示:。其中,是因变量(dependent variable), 是自变量(independent variable), 是斜率(slope), 是截距(intercept)。
在机器学习中,我们将方程改写为,其中和是模型的参数(是偏差 bias,是权值 weight),是输入,是目标变量。
在房屋价格这个例子,输入为房屋的面积,目标变量则为价格。
当和的值不同,我们会看到不同的线,如下所示:
参数值的不同,模型将做出不同的预测。
例如:设,当第一个数据点,;则这个模型预测结果为。当则预测结果为,这个结果更接近真实的结果。
2. 多元线性回归
之前的方程可用于只有一个输入变量(也被称为特征)的情况。然后,我们通常需要处理含有多变量的数据集。比如在房屋价格模型里,我们可以加入多个特征:房间数量,房屋建成的年份等。
我们将这种多特征的模型称之为多元线性回归。参照上述简单线性回归的方程,我们可以得到多元线性回归方程如下:
是多个输入维度,针对每个维度有相应的权值。
在多元线性回归的情况下,我们的预测不是二维空间中的直线,而是n维空间中的超平面。例如,在3D中,我们的图如下所示:
四、符号解释
总结一下目前使用到的数学符号:
= 数据点的数量
= 输入变量/特征。通常可以是多维的:
= 输出/目标变量。我们有时用来区分目标和预测
= 模型的权重和偏差。在线性回归里,的数量等于输入变量的维度数量;是一个标量
= 预测函数。简写成这样,和是是参数
另外,当我们讨论数据点的时候,我们会使用下面的数学符号:
= 某些数据点
= 第i个数据点
因此, 代表第一栋房屋的面积为3456平方,价格为$600k
为第i个数据点的预测结果
五、残差(Residuals)
代价函数(cost function)基于目标值和预测值的差值定义成本,也称为残差。残差的图形化表示如下图:
六、代价函数(cost function)
如果一条线远离所有的点,残差则会很大,因此代价函数的值也很大。如果一条线接近所有的点,则残差会很小,则代价函数也如此。
代价函数是在给定参数和的情况下,衡量预测值y(x)与目标值的接近程度。也就是说,衡量一组特定参数对预测目标值的好坏程度。
我们用于线性回归的代价函数是均方误差(mean squared error)。我们遍历所有数据点,求每个预测值和目标值的平方误差(squared error)的平均值。
示例
继续之前的例子。第一个数据点,。该模型的参数为。基于此,我们计算出来的预测为。因此,平均误差为。
类似的,我们对所有数据点的平方误差求和,再求平均值。另外两个数据点的平均误差为和,得出平均值为。
类似的,我们对权值求均方误差,得到。由于的代价函数比小,我们认为这组参数更好。
通过计算,我们发现权值为的误差最小,其均方误差为。
在下一个教程,我们会介绍通过梯度下降(gradient descent)方法找到最佳的权值。
为什么要用平均误差?
可能有人会问,为什么不直接用残差之和作为我们的代价函数?为何要平方?为何要平均?
1. 平方
平方使得不论残值的大小,都会给代价函数带来更大的影响(比线性带来的影响大)。结果是回归具有更均匀的残差,异常值更少的特点。这也使得不论是或是,残差都会使代价函数增长。
2. 平均
平均使得结果不受数据点的数量影响。简单的求合会造成结果值与数据点的数量成比例,求平均则不存在这个问题。平均也使得数据集之间的对比更容易,使得在不同问题空间中执行回归时结果更有意义。
七、用梯度下降(Gradient Descent)来优化
每个权重向量的值都会有对应的代价。我们要找到代价最小的权值。图形化如下:
给定一个线性回归模型和代价函数,我们可以用梯度下降(Gradient Descent)方法来寻找最佳的一组权重向量值。这个寻找最佳模型的过程就叫做优化(optimaization)。
八、总结
1. 在简单线性回归里,我们通过拟合一条直线,即回归线,来建立目标变量和输入变量的关系。
2. 在机器学习里,我们通常将线性回归线表达为一个方程:,其中和是这个模型的参数,是输入,是目标变量。
3. 是多元线性回归模型,其特征为。
4. 我们用均方误差(mean squared error)代价函数来评价一个模型的好坏。代价最小,模型越好。