AUC是推荐系统中最常用的模型评价指标。基础概念要常看常新,最近复习了一遍AUC的概念,在此做个笔记。本文力求简洁系统地理解AUC的概念和计算方法,AUC在推荐/广告领域的局限性以及解决这一问题的另一个指标:Group AUC(GAUC)
1. 分类任务与混淆矩阵
认识auc的第一步,是看懂混淆矩阵:
预测\真实 | 1 | 0 |
---|---|---|
1 | TP | FP |
0 | FN | TN |
- True/False代表预测的正确/错误; Positive/Negative代表预测值为1/0.
- TP是真1;FP是假1;FN是假0; TN是真0。
- 真阳率:,正样本被预测为1的概率;
- 假阳率:,负样本被预测为1的概率;
2. ROC曲线与AUC
以x轴为FPR, y轴为TPR,做出图称为ROC曲线
AUC的定义:Area Under ROC Curve,即ROC曲线下的面积
AUC的意义:随机抽取一对正负样本,AUC是把正样本预测为1的概率大于把负样本预测为1的概率的概率。这句话有点拗口,用公式写就是:
其中指将该正样本预测为1的概率;指将该负样本预测为1的概率;当auc=0.5时,模型没有分类能力,完全是随机猜测;auc>0.5时,把1预测为1的概率,比把0预测为1的概率大,说明模型有一定的分类能力。当auc<0.5时,把模型的预测类别取反,即可得到auc>0.5的结果。
auc的最大值为1,此时TPR恒等于1,即正样本永远会被预测正确
关于ROC曲线如何作图,请参考这篇文章
AUC的优势:能够综合考虑到正例和负例,因此可以应对样本不均衡的情况。
如何求解AUC:两种求解公式
(a)方法一:
M、N分别为正、负样本数。式(2)反映了AUC的定义,即随机抽取一对正负样本,把正样本预测为1的概率大于把负样本预测为1的概率,这里使用频数来估计频率。分母表示随机抽取一对正负样本;分子是这些样本对中的个数。当时取一个折中值0.5 .
(b)方法二:
其中M、N分别为正、负样本数。是第条样本的序号(概率得分从小到大排序,排在第个位置), 表示只把正样本的序号加起来。
式(3)和式(2)的思想类似,分母都表示随机抽取一对正负样本;其分子的第一项把所有样本按预测概率从小到大排序,然后将其中正样本的序号进行求和。对于每一个正样本,其序号表示排在该正样本之前的样本个数,即该正样本的预测概率比多少个样本大;再减去其中的正样本个数,即得到该正样本的预测概率比多少个负样本大。因此分子可以写作, 其中,拆开来就得到(3)中的结果。
这样理解比较抽象,举例说明:(引用自 AUC的计算方法 -kingsam_)
样本 | 标签 | 预测概率 |
---|---|---|
A | 0 | 0.1 |
B | 0 | 0.4 |
C | 1 | 0.35 |
D | 1 | 0.8 |
根据公式(2),首先列出所有的正负样本对:(C, A), (C, B), (D, A), (D, B), 计算得; 因此.
根据公式(3), 首先将所有样本按预测概率从小到大排序:A < C < B < D, 因此
3. GAUC:Group AUC
-
为什么要引入GAUC:因为AUC有时候不能满足推荐/广告系统中用户个性化的需求
再举个栗子:(引用自https://blog.csdn.net/hnu2012/article/details/87892368)
假设现有两个用户甲和乙,一共有5个样本其中+表示正样本,-表示负样本。现有两个模型A和B,对5个样本的predict score按从小到大排序如下:
模型A 甲- 甲+ 乙- 甲+ 乙+ 模型B 甲- 甲+ 甲+ 乙- 乙+ 从以上模型预测结果可以看出,对于用户甲的样本,模型A和B对甲的正样本打分都比其负样本高;对于用户乙的样本也是如此,因此分别对于用户甲和乙来说,这两个模型的效果是一样好的。
但这两个模型的AUC如何呢?根据公式(3)计算,. 我们发现AUC在这个场景下不准了。这是因为,AUC是对于全体样本排序后计算的一个值,反映了模型对于整体样本的排序能力。但用户推荐是一个个性化的场景,不同用户之间的商品排序不好放在一起比较。因此阿里妈妈团队使用了Group AUC来作为另一个评价指标。GAUC即先计算各个用户自己的AUC,然后加权平均,公式如下:
实际计算时,权重可以设为每个用户view或click的次数,并且会滤掉单个用户全是正样本或全是负样本的情况。
参考文献