建模后可解释性机器学习

可解释性机器学习_Feature Importance、Permutation Importance、SHAP_LMY的博客的博客-CSDN博客_feature importance

建模后可解释性机器学习：

特征重要性（模型自带Feature Importance）
Permutation Importance
SHAP
Partial Dependence

1、特征重要性（Feature Importance）

特征重要性的作用 -> 快速的让你知道哪些因素是比较重要的，但是不能得到这个因素对模型结果的正负向影响，同时传统方法对交互效应的考量会有些欠缺。

如果想要知道哪些变量比较重要的话。可以通过模型的feature_importances_方法来获取特征重要性。例如xgboost的feature_importances_可以通过特征的分裂次数或利用该特征分裂后的增益来衡量。

计算方法是：Mean Decrease Impurity。

思想：一个特征的意义在于降低预测目标的不确定性，能够更多的降低这种不确定性的特征就更重要。即特征重要性计算依据某个特征进行决策树分裂时，分裂前后的信息增益（基尼系数）

import pandas as pd
from sklearn.datasets import load_iris
import xgboost as xgb 

iris = load_iris()
df = pd.DataFrame(iris.data,columns=iris.feature_names) #转化成DataFrame格式
target = iris.target

xgb_model = xgb.XGBClassifier()
clf = xgb_model.fit(df.values, target)
a=clf.feature_importances_
features = pd.DataFrame(sorted(zip(a,df.columns),reverse=True))

2、Permutation Importance（排列重要性）

常规思路，很容易想到，在训练模型的时候可以直接输出特征重要性，但这个特征对整体的预测效果有多大影响？可以用Permutation Importance进行计算。

思想:基于“置换检验”的思想对特征重要性进行检测，，一定是在model训练完成后，才可以计算的。简单来说，就是改变数据表格中某一列的数据的排列，保持其余特征不动，看其对预测精度的影响有多大。

使用ELI5库可以进行Permutation Importance的计算。

import eli5
from eli5.sklearn import permutationImportance

perm = PermutationImportance(xgb_model, random_state = 1).fit(df, target) # 实例化
eli5.show_weights(perm)

结果分析：

靠近上方的绿色特征，表示对模型预测较为重要的特征；
为了排除随机性，每一次 shuffle 都会进行多次，然后取结果的均值和标准差；
±后面的数字表示多次随机重排之间的差异值。
这个例子里，最重要的特征是第三个 ‘petal length (cm)’, 和feature_importances_输出结果一致。

3、Partial Dependence
Partial Dependence就是用来解释某个特征和目标值y的关系的，一般是通过画出Partial Dependence Plot(PDP)来体现。
partial dependence是什么意思？-SofaSofa

4、SHAP(SHapley Additive exPlanation)

以上都是全局可解释性方法，那局部可解释性，即单个样本来看，模型给出的预测值和某些特征可能的关系，这就可以用到SHAP。

SHAP 属于模型事后解释的方法，它的核心思想是计算特征对模型输出的边际贡献，再从全局和局部两个层面对“黑盒模型”进行解释。SHAP构建一个加性的解释模型，所有的特征都视为“贡献者”。对于每个预测样本，模型都产生一个预测值，SHAP value就是该样本中每个特征所分配到的数值。

Shapley value起源于合作博弈论。比如说甲乙丙丁四个工人一起打工，甲和乙完成了价值100元的工件，甲、乙、丙完成了价值120元的工件，乙、丙、丁完成了价值150元的工件，甲、丁完成了价值90元的工件，那么该如何公平、合理地分配这四个人的工钱呢？Shapley提出了一个合理的计算方法（有兴趣地可以查看原论文），我们称每个参与者分配到的数额为Shapley value。

SHAP是由Shapley value启发的可加性解释模型。对于每个预测样本，模型都产生一个预测值，SHAP value就是该样本中每个特征所分配到的数值。假设第i个样本为xi，第i个样本的第j个特征为xi,j，模型对第i个样本的预测值为yi，整个模型的基线（通常是所有样本的目标变量的均值）为ybase，那么SHAP value服从以下等式。

基本思想：计算一个特征加入到模型时的边际贡献，然后考虑到该特征在所有的特征序列的情况下不同的边际贡献，取均值，即某该特征的SHAPbaseline value

SHAP(SHapley Additive exPlanation)是Python开发的一个"模型解释"包，可以解释任何机器学习模型的输出。

import shap  #Python的可解释机器学习库 pip install shap
shap.initjs()  # notebook环境下，加载用于可视化的JS代码

#模型还是用之前训练的
#xgb_model = xgb.XGBClassifier()
#clf = xgb_model.fit(df.values, target)

#在SHAP中进行模型解释需要先创建一个explainer，
#SHAP支持很多类型的explainer(例如deep, gradient, kernel, linear, tree, sampling)
#我们先以tree为例，因为它支持常用的XGB、LGB、CatBoost等树集成算法。
explainer = shap.TreeExplainer(clf)
shap_values = explainer.shap_values(df)  # 传入特征矩阵，计算SHAP值

j = 60
y_base = explainer.expected_value
player_explainer = pd.DataFrame()
player_explainer['feature'] = df.columns
player_explainer['feature_value'] = df.iloc[j].values
player_explainer['shap_value'] = shap_values[j]
player_explainer

利用SHAP解释Xgboost模型-SofaSofa

利用SHAP解释Xgboost模型 - 知乎 (zhihu.com)

机器学习入门教程与实例-SofaSofa

没想到还有一本书MingchaoZhu/InterpretableMLBook: 《可解释的机器学习--黑盒模型可解释性理解指南》，该书为《Interpretable Machine Learning》中文版 (github.com)

最后编辑于：2022.06.18 20:15:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,552评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,666评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,519评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,180评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,205评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,344评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,781评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,449评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,635评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,467评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,515评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,217评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,775评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,851评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,084评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,637评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,204评论 2赞 341

建模后可解释性机器学习