第三章 升级管用吗?

疑惑

你和小白对算法进行了升级,但这次算法升级管用吗?
怎么才能对算法模型进行客观的评价呢?
于是你又一次给“人工智能人话翻译官”发了邮件。很快翻译官做了详尽的回复。

解惑

我们可以从一个医疗的列子,对算法模型如何评价做一个说明。


我们拿到一批医院用来教学用的x光片,其中20人为有病的患者,80人为健康的人,一共100人。

我们分别用P与N代表
P(condition positive)
the number of real positive cases in the data。
Positive : sick
本例中对应的数字为20
N(condition negative )
the number of real negative cases in the data。
Negative : healthy
本例中对应的数字为80

然后我们找一位大夫来对这批X光进行判断,得到结果如下:
这里我们用P', N'来表示预测的结果。

P' 22人
该大夫预测有病的患者为22人
其中预测对了18人,错了4人
N' 78人
该大夫预测健康的有78人
其中预测对了76人,错了2人

然后我们就可以根据这批数据以及该大夫的预测结果构造以下矩阵:


image.png

把数据带入该矩阵:


image.png

接下来就是重点了:
根据该医生的判断,有多少病人要被召回医院进行治疗呢,这个比例为多少?
TPR = \cfrac{真实有病且预测为病人的人数}{真实有病的人数}=\cfrac{TP}{P} = \cfrac{TP}{TP + FN}
TPR = \cfrac{18}{20} = \cfrac{18}{18 + 2} = 0.9

这个比例很形象称为“召回率”。
有的资料也称为:
真阳性率(True Positive Rate,TPR),灵敏度(Sensitivity)说的都是一回事。


那么这个医生漏诊多少人,比例为多少?

医生把2个有病的人预测为健康,意味该医生漏诊了两个人。FNR就代表了漏诊的比例。
FNR = \cfrac{预测为健康但实际有病的人数}{真实有病的人数}=\cfrac{FN}{P} = \cfrac{FN}{TP + FN}
FNR = \cfrac{2}{20} = \cfrac{2}{18 + 2} = 0.1

这个比例形象的成为“漏诊率”
有的资料也称为:
假阴性率(False Negatice Rate,FNR)

漏诊率( = 1 - 灵敏度)


那么这个医生误诊多少人,比例为多少?
医生把4个健康的人的人预测为有病,意味该医生误诊了两个人。FPR就代表了误诊的比例。
FPR = \cfrac{预测为有病但实际健康的人数}{真实健康的人数}=\cfrac{FP}{N} = \cfrac{FP}{FP + TN}
FPR = \cfrac{4}{80} = \cfrac{4}{4 + 76} = 0.05

这个比例形象的成为“误诊率”
有的资料也称为:
假阳性率(False Positice Rate,FPR),误诊率( = 1 - 特异度)


最后该医生把真实健康的人,预测为健康的有76人。这个比例是多少呢?
TNR = \cfrac{真实健康且预测为健康的人数}{真实健康的人数}=\cfrac{TN}{N} = \cfrac{TN}{FP + TN}
TNR = \cfrac{76}{80} = \cfrac{76}{4 + 76} = 0.95

这个比例被称为:
真阴性率(True Negative Rate,TNR),特异度(Specificity)


好了,你可以这四个维度来评价该医生预测结果的好坏程度。看你更关心哪一个维度了?
好了,你可以把这个医生换成算法模型了。用这几个维度也可以评价该算法模型的优劣程度了。

恋爱成功为P。
恋爱失败为N。
得到以下评价矩阵:


image.png

其实还有以下多重组合,就看你更关心什么指标了:


image.png

除此之外:还可以使用ACC(accuracy)。
ACC = \cfrac{TP+TN}{P+N} = \cfrac{TP+TN}{TP+TN+FP+FN}

ACC = \cfrac{18 + 76}{20 + 80} = \cfrac{18 + 76}{18 + 4 + 2 + 76} = 0.94

ACC (accuracy)称为:判对准确率。
也就是针对P与N你预测对的人数与总体样本人数的比例。

BTW:

accuracy paradox:
假设有100个样本,99个反例,只有1个正例。如果我的模型不分青红皂白对任意一个样本都预测是反例,那么我的模型的accuracy是 “正确的个数/总个数 = 99/100 = 99%”。很显然在这种极端条件下,ACC是不具备代表性的。


最后再介绍一下F1 score

F1 = 2 \cfrac{PPV*TPR}{PPV + TPR} = \cfrac{2TP}{2TP+FP+FN}
TPR = \cfrac{TP}{TP + FN}

image.png

TPR 关注的是在真实的P中,你预测对了多少
按照上面的例子:TPR关注的是你预测恋爱成功的人数在真实恋爱成功人数中所占的比例。

image.png

PPV关注的是在预测的P中,你预测对了多少
按照上面的例子:PPV关注的是你预测恋爱成功的人数在预测恋爱成功人数中所占的比例。

我们一共有200人用来测试,其中P有100,N有100,我们来看两种极端的情况:
我们的模型非常厉害,全预测对了:


image.png

带入公式:

F1 = 2 \cfrac{PPV*TPR}{PPV + TPR} = \cfrac{2TP}{2TP+FP+FN} = \cfrac{200}{200} = 1

我们的模型非常傻x,全预测错了。


image.png

带入公式:

F1 = 2 \cfrac{PPV*TPR}{PPV + TPR} = \cfrac{2TP}{2TP+FP+FN} = \cfrac{0}{200} = 0

综上,经过观察如果F1的成绩趋近与1,说明你的模型不仅在预测的结果(P')中,预测对的多,同时覆盖了(P)的中绝大多数情况,这当然是我们最想看到的。

我们把accuracy paradox中的例子带入:


image.png

则:

F1 = 2 \cfrac{PPV*TPR}{PPV + TPR} = \cfrac{2TP}{2TP+FP+FN} = \cfrac{0}{1} = 0

再度疑惑

小白和你都是行动派,收到回复后,利用之前用户的测评结果,立即进行了测试比对,结果发现,升级后的模型在各项指标中与升级前的模型结果基本一致,未见明显提高!
这是为什么?你又陷入了沉思之中。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容