不同树模型重要性计算方法总结

首先，目前计算特征重要性计算方法主要有两个方面：

1.计算重要性特征方法

1.1训练过程中计算

训练过程中通过记录特征的分裂总次数、总/平均信息增益来对特征重要性进行量化。例如实际工程中我们会用特征在整个GBDT、XGBoost里面被使用的次数或者带来的总/平均信息增益来给特征重要度打分，最后进行排序。由于本身Ensemble模型在选择特征分裂时带有一定随机性，一般会跑多个模型然后把特征重要性求平均后排序。

1.2训练后使用OOB（Out of Bag）数据计算

第二种方式是训练好模型之后，用Out of Bag（或称Test）数据进行特征重要性的量化计算。具体来说，先用训练好的模型对OOB数据进行打分，计算出AUC或其他业务定义的评估指标；接着对OOB数据中的每个特征：

（1）随机shuffle当前特征的取值；

（2）重新对当前数据进行打分，计算评估指标；

（3）计算指标变化率

按照上面方式，对每个特征都会得到一个变化率，最后按照变化率排序来量化特征重要性。

延伸到 DNN 对特征重要性判定：

DNN不像Boosting这类模型那样存在所谓的分裂次数与信息增益，就需要使用第二种方式，对每个特征进行随机shuffle，观察模型指标的变化，最后按照变化率进行排序。比如AUC下滑率，下滑的越多说明当前这个指标越重要。当然，实际操作中需要结合业务经验先指定一个候选变量池，对这部分变量计算重要度，不然计算开销太大。

2. 树模型特征重要性判定

2.1 Random forest (Bagging)

[if !supportLists]l [endif]OOB：上面已经介绍了

[if !supportLists]l [endif]Gini：就是看每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。

Sklearn里面的Gini指数和信息熵，默认是Gini指数。信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长更加”精细”，因此对于高位数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果比较好。

2.2 GBDT(Boosting)

[if !supportLists]l [endif]Gini系数

在sklearn中，GBDT和RF的特征重要性计算方法是相同的，都是基于单棵树计算每个特征的重要性，探究每个特征在每棵树上做了多少的贡献，再取个平均值。

2.3 XGBoost(Boosting)

[if !supportLists]l [endif]Weight: 就是在子树模型分裂时，用到的特征次数，这里计算的是所有的树。

在sklearn中xgb.plot_importance()函数是绘制特征重要性的方法，默认的是weight.

[if !supportLists]Ø [endif]适用场景：weight将给予数值特征更高的值，因为它的变数越多，树分裂时可切割的空间越大。所以这个指标，会掩盖掉重要的枚举特征。

[if !supportLists]l [endif]Gain：是信息增益的泛化概念。这里是指节点分裂时，该特征带来信息增益(目标函数)优化的平均值。

[if !supportLists]Ø [endif]适用场景：gain用到了熵增的概念，它可以方便的找出最直接的特征。

[if !supportLists]l [endif]Cover：树模型在分裂时，特征下的叶子节点涵盖的样本数除以特征用来分裂的次数。分裂越靠近根部，cover值越大。

[if !supportLists]Ø [endif]适用场景：cover对于枚举特征，会更友好。

[if !supportLists]l [endif]其他重要计算方法4 --

permutation

permutation:如果这个特征很重要，那么我们打散所有样本中的该特征，则最后的优化目标将折损。这里的折损程度，就是特征的重要程度。由于其计算依赖单一特征，所以对非线形模型更友好。同时，如果特征中存在多重共线性，共线性的特征重要性都将非常靠后。这是因为混淆单一特征，不影响另一个特征的贡献。这样的结果是，即使特征很重要，也会排的很靠后。它在scikit-learn作为permutation_importance方法实现。

2.4 LightGBM(Boosting)

[if !supportLists]· [endif]split: 使用该特征的次数.

[if !supportLists]· [endif]gain: 该特征的总增益.

3.Bagging和Boosting的区别

（1）投票方面

Bagging：所有学习器平均投票。

Boosting：对学习器进行加权投票。

（2）学习顺序

Bagging的学习是并行的，每个学习器没有依赖关系。

Boosting学习是串行，学习有先后顺序。

（3）主要作用

Bagging主要用于提高泛化性能(解决过拟合，也可以说降低方差)

Boosting主要用于提高训练精度(解决欠拟合，也可以说降低偏差)

（4）样本选择上

Bagging：训练集在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重变化。而权值是根据上一轮的分类结果进行调整。

（5）样例权重

Bagging：使用均匀取样，每个样例的权重相等。

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

4. 随机森林和极端随机树的区别

随机森林的随机极端随机树的随机

样本随机

特征随机

参数随机

模型随机(ID3,C4.5)

特征随机

参数随机

模型随机(ID3,C4.5)

分裂随机

极端随机树是随机森林的一个变种, 原理几乎和RF一模一样，仅有区别有：

(1)对于每个决策树的训练集，RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集，而extra trees一般不采用随机采样，即每个决策树采用原始训练集。

(2)在选定了划分特征后，RF的决策树会基于基尼系数，均方差之类的原则，选择一个最优的特征值划分点，这和传统的决策树相同。但是extra trees比较的激进，他会随机的选择一个特征值来划分决策树。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,340评论 5赞 467
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,762评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,329评论 0赞 329
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,678评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,583评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,995评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,493评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,145评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,293评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,250评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,267评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,973评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,556评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,648评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,873评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,257评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,809评论 2赞 339

不同树模型重要性计算方法总结

推荐阅读更多精彩内容