基于随机森林的缺失值处理

本文中主要是利用sklearn中自带的波士顿房价数据,通过不同的缺失值填充方式,包含均值填充、0值填充、随机森林的填充,来比较各种填充方法的效果

image

缺失值

现实中收集到的数据大部分时候都不是完整,会存在缺失值。

  • 有些时候会直接将含有缺失值的样本删除drop
  • 但是有的时候,利用0值、中值、其他常用值或者随机森林填充缺失值效果更好
  • sklearn中使用sklearn.impute.SimpleImputer类填充缺失值

填充缺失值

先让原始数据中产生缺失值,然后采用3种不同的方式来填充缺失值

  • 均值填充
  • 0值填充
  • 随机森林方式填充

波士顿房价数据

各种包和库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston  # 波士顿数据
from sklearn.impute import SimpleImputer  # 填充缺失值的类
from sklearn.ensemble import RandomForestRegressor  # 随机森林回归
from sklearn.model_selection import cross_val_score  # 交叉验证

查看数据

dataset = load_boston()
dataset.data.shape  # 标签是连续型的值,用于回归分析
dataset.target[:5]  # 标签是连续的数值,连续型变量,用于回归问题
image

完整数据

X_full, y_full = dataset.data, dataset.target
n_samples = X_full.shape[0]  # 506
n_features = X_full.shape[1] # 13

向完整数据中填充缺失值

设置缺失的样本总数

rng = np.random.RandomState(0)  # 确定随机种子
missing_rate = 0.5   # 缺失率是50%
# 计算缺失的样本总数;floor是向下取整
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate))  
n_missing_samples

随机数填充

  • 数据集要随机遍布在各行各列中,而一个缺失的数据需要行列两个指标
  • 创造一个数组,行索引在0-506,列索引在0-13之间,利用索引来进行填充3289个位置的数据
  • 利用0、均值、随机森林分别进行填充
# randint(下限,上限,n):在上限和下限之间随机取出n个整数
missing_features = rng.randint(0, n_features, n_missing_samples) # (0,13,3289)
missing_samples = rng.randint(0, n_samples, n_missing_samples) # (0,506,3289)

# 采样了3289个数据,远远超过了样本量506,使用随机抽取的函数randint;
# 如果需要的数据量是小于样本量506,则需要使用randint.choice来抽样,保证抽取不重复的随机数
# missing_samples = rng.choice(n_samples, n_missing_samples, replace=False)
image

均值填充

imp_mean = SimpleImputer(missing_values=np.nan, strategy="mean")  # 指定缺失值是什么和用什么填充
X_missing_mean = imp_mean.fit_transform(X_missing)  # fit + predict---->特殊接口transform

检查得到的数据是否存在缺失值

pd.DataFrame(X_missing_mean).isnull().sum() # X_missing_mean是一个ndaraay

0值填充

imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value=0)   # 用0进行填充
X_missing_0 = imp_0.fit_transform(X_missing)

随机森林填充

如何填充

假设一个具有n个特征的数据,特征T存在缺失值(大量缺失更适合),把T当做是标签,其他的n-1个特征和原来的数据看作是新的特征矩阵,具体数据解释为:

数据 说明
Xtrain 特征T不缺失的值对应的n-1个特征+原始标签
ytrain 特征T不缺失的值
Xtest 特征T缺失的值对应的n-1个特征+原始标签
ytest 特征T缺失值(未知)

如果其他特征也存在缺失值,遍历所有的特征,从缺失值最少的开始。

  1. 缺失值越少,所需要的准确信息也越少
  2. 填补一个特征,先将其他特征值的缺失值用0代替,这样每次循环一次,有缺失值的特征便会减少一个

图形解释

假设数据有n个特征,m行数据

image

由于是从最少的缺失值特征开始填充,那么需要找出存在缺失值的索引的顺序:argsort函数的使用

X_missing_reg = X_missing.copy()
# 找出缺失值从小到大对应的索引值
sortindex = np.argsort(X_missing_reg.isnull().sum(axis=0)).values
image

填充过程

for i in sortindex:
    
    # 构建新的特征矩阵和新标签
    df = X_missing_reg   # 所有的操作都在df上进行,只是最后得到的填充值作用在X_missing_reg上面
    fillc = df.iloc[:, i]   # 某个需要填充的列,索引为i
    
    # 没有被选中填充(!=)的特征与原始标签的连接起来;df就是新特征矩阵
    df = pd.concat([df.iloc[:, df.columns != i], pd.DataFrame(y_full)], axis=1)  
    
    
    # 新的特征矩阵df中,对含有缺失值的列,进行0的填补
    # 检查是否有0 pd.DataFrame(df_0).isnull().sum() 
    df_0 = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value=0).fit_transform(df)
    
    # 找出训练集和测试集
    ytrain = fillc[fillc.notnull()]  # 被选中填充的特征矩阵T中的非空值
    ytest = fillc[fillc.isnull()]  # 被选中填充的特征矩阵T中的空值
    Xtrain = df_0[ytrain.index, :]  # 新特征矩阵上,被选出来要填充的特征的非空值对应的记录
    Xtest = df_0[ytest.index, :]   # 空值对应的记录
    
    # 随机森林填充缺失值
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(Xtrain, ytrain)
    y_predict = rfc.predict(Xtest)  # predict接口预测得到的结果就是用来填充空值的那些值
    
    # 将填补好的特征返回到我们的原始特征矩阵中
    X_missing_reg.loc[X_missing_reg.iloc[:, i].isnull(), i] = y_predict

4种数据建模

  • MSE:均方误差MSE=\frac{1}{N}\sum^N_{i=1}(f_i-y_i)^2

回归树的衡量指标,越小越好。sklearn中使用的是负均方误差neg_mean_squared_error。均方误差本身是种误差loss,通过负数表示

  • R^2:回归树score返回的真实值是R的平方,不是MSE

R^2=1-\frac{u}{v}

u=\sum^N_{i=1}(f_i-y_i)^2

v=\sum^N_{i=1}(y_i-\hat y)^2

X = [X_full, X_missing_mean, X_missing_0, X_missing_reg]
mse = []

for x in X:
    estimator = RandomForestRegressor(random_state=0, n_estimators=100)
    scores = cross_val_score(estimator, x, y_full, scoring="neg_mean_squared_error", cv=5).mean()
    mse.append(scores * -1)
image

绘图

x_labels = ["Full Data",
           "Mean Imputation",
           "Zero Imputation",
           "Regressor Imputation"]

colors = ['r', 'g', 'b', 'orange']

plt.figure(figsize=(12,6))  # 生成画布
ax = plt.subplot(111)  # 添加子图

# 在上面的过程中已经求出了4种不同数据的MSE
for i in np.arange(len(mse)):  # arange(4)
    ax.barh(i, mse[i], color=colors[i],alpha=0.6,align='center')
    
ax.set_title("Imputation Techniques with Boston Data")  # 标题
ax.set_xlim(left=np.min(mse)*0.9,
           right=np.max(mse)*1.1)  # 横轴是mse的取值

ax.set_yticks(np.arange(len(mse)))
ax.set_label("MSE")
ax.set_yticklabels(x_labels)   # 用x_labels中的名字作为y轴的命名
plt.show()
image

从结果中可以看出来,随机森林填充之后的结果是最好的,其次是原始数据本身。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,312评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,578评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,337评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,134评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,161评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,303评论 1 280
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,761评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,421评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,609评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,450评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,504评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,194评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,760评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,836评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,066评论 1 257
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,612评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,178评论 2 341

推荐阅读更多精彩内容