在数据分析中,机器学习是必不可少的工具。本系列将从以下几个问题出发,探讨机器学习中模型的运作原理:
- 理解机器学习模型的到底是什么?
- 建立一个机器学习的模型并预测房价
- 学习如何评价和改进模型
基本的机器学习模型
做预测是日常生活中必不可少的一部分。例如,如果我们在前一天晚上不充电,那么我们就会预测手机将会在今天耗尽电量。如果我们观察到大风和闪电,我们就会预测将会下雨。以前的生活经验是我们做这些预测的依据。同样的,机器学习模型也是如此:它基于已经给出的例子来预测特定条件下的结果。本篇就将以预测房价为例子来解析机器学习的运作原理。
在此,我们基于一个特定的机器学习模型——决策树来分析。事实上有很多不同种类的机器学习模型,每一个尤其优缺点,但是决策树模型是一个较好的用来入门的模型。
下图便是一个简单的决策树:
对于所有房子均可以采用上述的决策树的逻辑。估价中根据房子的特性进行判断,决策树的最下方便是对房价的预测。对其,称之为为决策树的叶子节点。这些节点实际上由数据决定。