【实战篇】随机森林预测气温(一)

在介绍决策树、随机森林算法时,小鱼使用的一直都是分类任务。从本篇文章开始,小鱼会在连载中更新基于随机森林的气温预测任务,根据历史数据来预测某一天的气温。

注:气温为连续值,接下来关于气温预测的任务也是回归任务。

读取数据

读取本次任务的数据集:

import pandas as pd
import os

df = pd.read_csv("data" + os.sep + "temps.csv")
df.head()

数据集中的前 5 条数据如下:

数据特征介绍:

  • year moth day week 表示日期
  • temp_2 前天的温度
  • temp_1 昨天的温度
  • average 在历史当中,每年这一天的平均温度
  • actual 当天的真实温度,也是我们本次任务预测的标签
  • friend 凑热闹的一列,相当于噪声

当前数据集一共 348 个样本,9 列中包含了 8 个特征和 1 个标签值。

>> df.shape
(348, 9)

观察数值型指标的统计特性:

df.describe()

其中年份的标准差为 0 ,这是因为所有样本都是 2016 年的数据。此外,对于时间特征,在预处理时,我们往往需要组合或者拆分。

拆分是为了提取特征,而组合则是为了绘图分析所服务的。在绘图或者计算的过程中,需要标准的时间格式:

from datetime import datetime

dates = [datetime(year,month,day) for year,month,day in zip(df.year, df.month, df.day)]

得到的 datetime 日期如下:

>> dates[:5]
[datetime.datetime(2016, 1, 1, 0, 0),
 datetime.datetime(2016, 1, 2, 0, 0),
 datetime.datetime(2016, 1, 3, 0, 0),
 datetime.datetime(2016, 1, 4, 0, 0),
 datetime.datetime(2016, 1, 5, 0, 0)]

观察特征

导入画图工具,并设置绘图风格:

import matplotlib.pyplot as plt

# plt.style.available
# 指定默认风格
plt.style.use("seaborn-whitegrid")

%matplotlib inline

绘图观察真实气温、前一天气温以及 2 天前气温、噪音列和日期的关系。

# 设置布局
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows=2, ncols=2, figsize=(10,6), dpi=80)
fig.autofmt_xdate(rotation = 45)

# 标签值
ax1.plot(dates, df.actual, linewidth=1, color='red')
ax1.set_xlabel('')
ax1.set_ylabel('Temperature')
ax1.set_title('Temp')

# 昨天
ax2.plot(dates, df.temp_1, linewidth=1, color='red')
ax2.set_xlabel('')
ax2.set_ylabel('Temperature')
ax2.set_title('Previous Temp')

# 前天
ax3.plot(dates, df.temp_2,linewidth=1, color='red')
ax3.set_xlabel('Date')
ax3.set_ylabel('Temperature')
ax3.set_title('Two Days Prior Temp')

# 噪声
ax4.plot(dates, df.friend, linewidth=1, color='red')
ax4.set_xlabel('Date')
ax4.set_ylabel('Temperature')
ax4.set_title('Friend Estimate')

绘制结果:

温度相关的特征无异常情况,分布基本上是一致的。friend 列虽然也是气温,但其分布与 actual temp_1temp_2 明显不同, friend 列可以作为噪声剔除。

数据预处理

原始数据中在 week 列中并不是一些数值特征,而是表示周几的字符串,这些计算机可不认识,需要我们来转换一下 。

>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 348 entries, 0 to 347
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   year     348 non-null    int64  
 1   month    348 non-null    int64  
 2   day      348 non-null    int64  
 3   week     348 non-null    object 
 4   temp_2   348 non-null    int64  
 5   temp_1   348 non-null    int64  
 6   average  348 non-null    float64
 7   actual   348 non-null    int64  
 8   friend   348 non-null    int64  
dtypes: float64(1), int64(7), object(1)
memory usage: 24.6+ KB

该列中的值为 object 类型,存放的都是星期几这样的属性值:

week
Mon
Tue
Wed
Thu
Fri

需要使用独热编码进行转换:

Mon Tue Wed Thu Fri
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1

使用独热编码处理之后, week 列将被拆分成由不同属性值构成的所列。对于某个特定的样本,只有样本属性对应的属性列为 1,其余列全部为 0 ,所以又称为独热编码。

>> df= pd.get_dummies(df)
>> df.head()

度热编码之后的数据集:

划分训练集与测试集:

from sklearn.model_selection import train_test_split

y = df.actual
X = df.drop("actual", axis=1)

feature_list = list(df.columns)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

训练集与测试集样本个数:

>> print('训练集特征:', X_train.shape)
训练集特征: (261, 14)
>> print('训练集标签:', y_train.shape)
训练集标签: (261,)
>> print('测试集特征:', X_test.shape)
测试集特征: (87, 14)
>> print('测试集标签:', y_test.shape)
测试集标签: (87,)

随机森林建模

下面,我们先不进行调参,先从建模、训练、预测、评估、可视化整体来一遍,了解一下流程。

from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor(n_estimators=1000, random_state=0)
rfr.fit(X_train, y_train)

在测试集进行预测,并使用 MAPE 绝对百分比误差来评估此回归任务的结果。

# 预测结果
>> predictions = rfr.predict(X_test)
# 计算误差
>> errors = abs(predictions - y_test)
# MAPE(Mean Absolute Percentage Error)
>> mape = errors / y_test
>> print(f'MAPE:{mape.mean():.2%}')
MAPE:6.08%

绝对百分比误差 MAPE 可以表示当前模型的绝对误差有多少,MAPE 越小则损失越小,模型越优秀。

随机森林有一个非常大的好处,经过随机森林建模之后,通过模型可以得到特征的重要性排名。

feature_df = pd.DataFrame({
    'features': rfr.feature_names_in_,
    'importances': rfr.feature_importances_
})
feature_df.sort_values(by='importances',ascending=False)

从输出结果来看,前 3 个最重要的特征分别是 temp_1 average temp_2

通过柱形图,直观地展示特征的重要性。

feature_df.plot(kind='bar')
# X轴名字
plt.xticks(feature_df.index, feature_df.features, rotation="vertical")
# 图名
plt.xlabel('Features')
plt.title('Features Importances')

昨天的温度 temp_1 和历史中这一天的平均温度 average 是两个重要层度非常突出的指标。

有的时候,我们为了提高效率,也会选择最重要的几个特征来进行建模。下面,小鱼极端地使用两个特征进行建模,来看看绝对百分比误差 MAPE 的变化。

# 选择最重要的那2个特征来试试
rfr_most_important = RandomForestRegressor(n_estimators=1000, random_state=0)
important_feature = ['temp_1', 'average']

# 重新训练模型
rfr_most_important.fit(X_train.loc[:,important_feature], y_train)
# 预测结果
predictions = rfr_most_important.predict(X_test.loc[:, important_feature])
# 评估结果
errors = abs(predictions - y_test)
mape = errors / y_test

print(f'mape:{mape.mean():.2%}')

为了公平起见,建模时使用了相同的随机数种子。使用最重要的两个特征建模,得到的绝对百分比误差为:

MAPE:6.38%

使用少数重要特征建模虽然比使用全部特征建模的损失增大了,但增加的损失并不多,但可以换来时间成本。

最后,我们还可以通过绘图的方式,来直观地看到目前真实值同预测值之间的差异情况。

定义两个 DataFrame 分别存储日期和真实值、日期和预测值:

test_dates = [datetime(year,month,day) for year,month,day in zip(X_test.year, X_test.month, X_test.day)]

predictions_data = pd.DataFrame({'date':test_dates, 'prediction':predictions})
true_data = pd.DataFrame({'date':dates, 'actual':y})

绘图:

plt.plot(true_data['date'], true_data['actual'], color='blue', linestyle='-', linewidth=1.5, label='actual')
plt.plot(predictions_data['date'], predictions_data['prediction'], 'ro', label='prediction')

plt.xticks(rotation=60)
plt.legend()

plt.xlabel('Date')
plt.ylabel('Maximum Temperature (F)')

plt.title('Actual and Predicted Values')

绘制结果:

看起来还可以,这个走势我们的模型已经基本能够掌控了,接下来我们要再深入到数据中了,考虑几个问题:

1、如果可以利用的数据量增大,会对结果产生什么影响呢?
2、加入新的特征会改进模型效果吗?此时的时间效率又会怎样?

我们下节见 (* ̄︶ ̄)

附:随机森林中树的可视化展示

上述我们训练随机森林模型时,构造了 1000 棵树,下面,小鱼来展示其中的一颗决策树。

from sklearn.tree import export_graphviz
from IPython.display import Image
import pydotplus

# 拿到其中一棵树
tree = rfr.estimators_[0]
# 导出成dot文件
export_graphviz(tree, out_file="tree.dot", feature_names=X.columns, rounded=True, precision=1)
# 绘图
graph = pydotplus.graph_from_dot_file("tree.dot")
# 在notebook中展示
Image(graph.create_png())

由于树还是比较庞大的,在 Jupyter NoteBook 中无法清晰地呈现:

可以保存成 PNG 文件在电脑的图像软件中查看:

graph.write_png("tree.png")

下面我们为了更好地在 Notebook 中展示,小鱼只选择 3 个特征构建随机森林,将树的深度限制在 3:

>> rfr_small = RandomForestRegressor(n_estimators=1000, max_depth=3, random_state=0)
>> rfr_small.fit(X_train, y_train)
RandomForestRegressor(max_depth=3, n_estimators=1000, random_state=0)

选取随机森林中的一棵树进行展示:

# 提取一棵树
tree_small = rfr_small.estimators_[0]

# 保存
graph = export_graphviz(
    tree_small, label="root", proportion=True, out_file=None, 
    feature_names=X.columns, filled=True, rounded=True)

graph = pydotplus.graph_from_dot_data(graph)
# 展示
Image(graph.create_png())

绘制结果:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,312评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,578评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,337评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,134评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,161评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,303评论 1 280
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,761评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,421评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,609评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,450评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,504评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,194评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,760评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,836评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,066评论 1 257
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,612评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,178评论 2 341

推荐阅读更多精彩内容