RandomForest随机森林算法

https://blog.csdn.net/qq_16633405/article/details/61200502
http://blog.itpub.net/12199764/viewspace-1572056/
https://blog.csdn.net/colourful_sky/article/details/82082854

简介

随机森林是利用多个决策树对样本进行训练、分类并预测的一种算法，主要应用于回归和分类场景。在对数据进行分类的同时，还可以给出各个变量的重要性评分，评估各个变量在分类中所起的作用。随机森林是一种比较有名的集成学习方法，属于集成学习算法中弱学习器之间不存在依赖的一部分，其因为这个优点可以并行化运行，因此随机森林在一些大赛中往往是首要选择的模型。

随机森林中随机是核心，通过随机的选择样本、特征，降低了决策树之间的相关性。随机森林中的随机主要有两层意思，一是随机在原始训练数据中有放回的选取等量的数据作为训练样本，二是在建立决策树时，随机的选特征中选取一部分特征建立决策树。这两种随机使得各个决策树之间的相关性小，进一步提高模型的准确性。
随机森林未用到决策树的剪枝，那怎样控制模型的过拟合呢？主要通过控制树的深度(max_depth)，结点停止分裂的最小样本数（min_size）等参数。随机森林还可以处理缺失值。

算法介绍

假设训练集中n个样本，每个样本有d个特征，需要训练一个包含T棵数的随机森林，具体的算法流程如下所示：
1、对于T棵决策树，分别重复如下操作：a、使用Bootstrap抽样，从训练集D获得大小为n的训练集D； b、从d个特征中随机选取m（m
2、如果是回归问题，则最后的输出是每个树输出的均值；
3、如果是分类问题，则根据投票原则，确定最终的类别。
每棵树的生成都是随机的，至于随机选取的特征数，如何决定随机选取的特征数的大小呢，主要有两种方法，一种是交叉验证，另外一种的经验性设置 m= log_2 d +1。

模型的性能评估

1、分类间隔：分类间隔是指森林中正确分类样本的决策树的比例减去错误分类的决策树的比例，通过平均每个样本的分类间隔得到随机森林的分类间隔。对于分类间隔，当然是越大越好，大的分类间隔说明模型的分类效果比较稳定，泛化效果好。
2、袋外误差：对于每棵树都有一部分样本而没有被抽取到，这样的样本就被称为袋外样本，随机森林对袋外样本的预测错误率被称为袋外误差（Out-Of-Bag Error,OOB）。计算方式如下所示：
（1）对于每个样本，计算把该样本作为袋外样本的分类情况；
（2）以投票的方式确定该样本的分类结果；
（3）将误分类样本个数占总数的比率作为随机森林的袋外误差。
3、变量重要程度刻画：其实变量重要程度刻画不能算是模型性能评估里面，因为有的实际应用中需要查看这么多的特征中到底那一部分特征是相对重要的特征，这个时候变量的重要程度的刻画就显得尤为重要了。其计算方式主要有一下两种方式：
（1）通过计算特征的平均信息增益大小得出；
（2）通过计算每个特征对模型准确率的影响，通过打乱样本中某一特征的特征值顺序，产生新样本，将新样本放入建立好的随机森林模型计算准确率。相对于不重要的特征，即使打乱了顺序也不会对结果产生很大的影响，对于重要的特征，会对结果产生很大的影响的。

随机森林的优缺点

优点：
1、对于大部分的数据，它的分类效果比较好。
2、能处理高维特征，不容易产生过拟合，模型训练速度比较快，特别是对于大数据而言。
3、在决定类别时，它可以评估变数的重要性。
4、对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。
缺点：
1、随机森林容易产生过拟合，特别是在数据集相对小或者是低维数据集的时候。
2、计算速度比单个的决策树慢。
3、当我们需要推断超出范围的独立变量或非独立变量，随机森林做得并不好。

随机森林的Python实现

分类问题

from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
#RandomForest的分类类
from sklearn.ensemble import RandomForestClassifier

iris = load_iris()
clf = RandomForestClassifier(n_estimators=100)
scores = cross_val_score(clf,iris.data,iris.target)
scores.mean()

回归问题

from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_boston
#RandomForest的回归类
from sklearn.ensemble import RandomForestRegressor

boston = load_boston()
rgm = RandomForestRegressor(n_estimators=100)
scores = cross_val_score(rgm,boston.data,boston.target)
scores.mean()

常用方法：参考https://blog.csdn.net/w952470866/article/details/78987265
predict_proba(x)：给出带有概率值的结果。每个点在所有label（类别）的概率和为1。
predict(x)：预测X的结果。内部还是调用的predict_proba()，根据概率的结果看哪个类型的预测值最高就是哪个类型。
predict_log_proba(x)：和predict_proba基本上一样，只是把结果给做了log()处理。
fit(X, y, sample_weight=None)：从训练数据集(X,y)上建立一个决策树森林。x为训练样本，y为目标值（分类中的类标签，回归中的实数）。
参数
和GBDT对比，GBDT的框架参数比较多，重要的有最大迭代器个数，步长和子采样比例，调参起来比较费力。但是RandomForest则比较简单，这是因为bagging框架里的各个弱学习器之间是没有依赖关系的，这减小的调参的难度。换句话说，达到同样的调参效果，RandomForest调参时间要比GBDT少一些。
Bagging框架参数：
n_estimators：最大的弱学习器个数（建立随机森林分类器（树）的个数）。太小容易欠拟合，太大又容易过拟合，一般选择一个适中的数值。增大可以降低整体模型的方差，提升模型的准确度，且不会对子模型的偏差和方差有任何影响。由于降低的是整体模型方差公式的第二项，故准确度的提高有一个上限。在实际应用中，可以在1至200之间取值；
n_jobs：引擎允许使用处理器的数量。若值为1则只能使用一个处理器，值为-1则表示没有限制。设置n_jobs可以加快模型计算速度；
oob_score：是否采用袋外误差来评估模型的好坏，默认为 False，推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力；
CART决策树参数：
max_features: RF划分时考虑的最大特征数。可以使用很多种类型的值，默认是"None",意味着划分时考虑所有的特征数；如果是"log2"意味着划分时最多考虑log2N个特征；如果是"sqrt"或者"auto"意味着划分时最多考虑N−−√N个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数，其中N为样本总特征数。一般来说，如果样本特征数不多，比如小于50，我们用默认的"None"就可以了，如果特征数非常多，我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。
max_depth: 决策树最大深度。默认为"None"，决策树在建立子树的时候不会限制子树的深度这样建树时，会使每一个叶节点只有一个类别，或是达到min_samples_split。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。
min_samples_split: 内部节点再划分所需最小样本数，默认2。这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。
min_samples_leaf:叶子节点最少样本数。这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。
min_weight_fraction_leaf：叶子节点最小的样本权重和。这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。
max_leaf_nodes: 最大叶子节点数。通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。
min_impurity_split: 节点划分最小不纯度。这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点，即为叶子节点。一般不推荐改动默认值1e-7。
上面的决策树参数中最重要的包括最大特征数max_features，最大深度max_depth，内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf。
参数调优：随机森林参数的调优在数据分析和挖掘中也占有一定的地位，学会好的调优方法能够达到事半功倍的效果。调优参考https://blog.csdn.net/cherdw/article/details/54971771

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335

RandomForest随机森林算法

简介

算法介绍

模型的性能评估

随机森林的优缺点

随机森林的Python实现

推荐阅读更多精彩内容