机器学习——评估指标

混淆矩阵（confusion matrix）

如下表所示，所有的评测指标都可以根据混淆矩阵进行运算得到。

真实情况	预测结果为正	预测结果为反
正例	True Positive (TP)	False Negative (FN)
反例	False Positive (FP)	True Negative (TN)

TP表示：真正例，分类为正样本且本身也为正样本，分类正确。

FN表示：假反例，分类为负样本但本身为正样本，分类错误。

FP表示：假正例，分类为正样本但本身为负样本，分类错误。

TN表示：真反例，分类为负样本且本身也为负样本，分类正确。

准确率（Accuracy）

准确率（可以简写为，acc）是最常见的评价指标，即分类器预测正确的样本占总共样本数的百分比，如下式所示：

$acc = \frac{TP+TN}{TP+TN+FP+FN}$

在大多数的情况下，acc可以用于作为评价分类器性能好坏的指标。但是对于不平衡数据集而言，acc就无法很好的刻画分类器的性能。不平衡数据集是指，数据集中样本严重不均衡，例如，100个数据集中，其中95个为正类，5个为负类。对于这样的情况，分类器如果将所有的数据都分为正类，其acc都可以达到95%。但很明显可以看出这样的分类结果并不是好的，因此对于样本不均衡的数据集，无法使用acc作为数据分类的评价指标。

精准率（Precision）

精准率又叫查准率，其针对的是预测结果，即真正例（TP）占被分类器分为正类的样本的百分比，如下式所示:

$Precision=\frac{TP}{TP+FP}$

Precision 看起来和 acc 是差不多的，但是 acc 针对的是所有的样本，即包含了正样本和负样本；而Precision只是针对的正样本，刻画的是正样本的分类结果，而不涉及负样本的信息。Precision越高表示分类器对于正类分类效果越好，即分类器越容易选出的正确的正样本。

召回率（Recall）

召回率又叫查全率，其针对的是实际样本，即真正例（TP）占真实标签为正的样本的百分比，如下式所示：

$Recall = \frac{TP}{TP+FN}$

Recall是从真实样本出发，其值越高表示对于真实数据集而言，分类器越容易将所有的正样本都挑选出来。

可以发现Precision和Recall只有分母不一样，这两个评价指标都是基于TP来定义的，但两者之间通常是相互矛盾的。往往在Recall越高的时候，其Precision都会越来越低。因为若是想要挑选出所有的正样本（即Recall逼近1），最简单的方法是将所有的样本都分为正类，这样Recall值可以达到1，很明显，此时的Precision值会非常低。同样的，若果想让Precision逼近1，则只选择最有把握的样本作为正类就可以了，但是此时Recall值会非常低。

P-R（Precision-Recall）曲线

Precision-Recall 曲线（P-R曲线）是查全率和查准率的曲线。首先我们将分类器的预测结果按照概率进行排序，排在前面的认为是最可能为正类的样本，排在后面的认为是最不可能为正类的样本。然后按照顺序逐个对正样本进行预测并计算出Precision和Recall的值。再以Precision为纵轴，Recall为横轴作图，就可以得到P-R曲线。

由于P-R曲线可以很好的表示出分类器在总体样本的查全率和查准率。因此，若是有一个分类器的P-R曲线完全包裹住另外一个分类器的曲线，则可以说明该分类器的性能优于后者。若是两个分类器的曲线有交点，则无法很明确的说明哪个分类器的性能更好。因此提出使用平衡点（Break-Even Point，BEP）来度量两个分类器的性能，即当查准率等于查全率时P-R曲线的取值。但是只是使用BEP度量其实过于片面。

F1 分数（F1 Score）

F1分数是同时考虑了查全率和查准率，并使两个去一个平衡，让两者同时达到最高的指标，如下式所示：
$F1 = \frac{2*Precision*Recall}{Precision+Recall}$

F1分数相比BEP而言，可以更好的度量 Precision 和 Recall 之间的关系，对分类器的性能做出更好的判断，常常被用于度量分类器的性能。

F1分数的一般形式 $F_{\beta}$

$F_\beta = \frac{(1+\beta^2)*Precision*Recall}{(\beta^2*Precision)+Recall}$

$\beta$ 度量了查全率和查准率的相对重要性。当 $\beta=1$ 时为标准的 $F1$ 分数；当 $\beta>1$ 时查全率有更大的影响，例如罪犯检索系统；当 $\beta<1$ 时查准率有更大的影响，例如内容推荐。

ROC（Receiver Operating Characteristic）曲线以及 ROC-AUC（Area Under Curve）

在介绍ROC曲线之前，我们首先引入如下两个指标，灵敏度（真正率，True Positive Rate，TPR）和1-特异度（假正率， False Positive Rate，FPR），其公式如下所示

$TPR = \frac{TP}{TP+FN}$ , $FPR=\frac{FP}{FP+TN}$

可以明显的看出TPR和Recall是同一个式子，只是名字不一样了。而FPR表示的是被分类器分为正类的负样本占实际是负样本的百分比。很明显可以看出，这两个度量指标都是针对实际样本，分别从正负类出发，可以很好的避免样本极度不均衡的问题。由此，将TPR作为纵轴，FPR作为横轴可以画出ROC曲线以及计算ROC-AUC。

如同P-R曲线一样，ROC曲线也是根据逐个遍历阈值来绘制曲线的。由于FPR表示的是错报的负样本，因此希望的是FPR越低越好，而TPR越高越好。因此当ROC曲线越陡时，即斜率越大时，分类器的性能越好。为了方便计算，提出了使用ROC-AUC来度量，即计算ROC曲线下的面积。上图中的虚线表示的时候随即猜测的ROC曲线，因此理想情况下AUC的值越接近于1越好。

最后编辑于：2021.06.29 15:35:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342