评估信息检索系统的排序模型,常见的离线评估指标有
- precision recall F1-score
- NGCG
- MAP ERR
常见的线下评估指标有:
- CTR / CVR
- Time to first click
- interleaving
这里主要介绍一种线上比较有效的评估方法balanced interleaving,它的操作过程如下:
假设有两个排序模型,A 和 B,某一结果列表 (a ,b ,c ,d ,e,f)
- 它们排序序列为 (a ,b ,c ,d ,e ,f) 和(b ,c ,a ,f ,e ,d)
- 新建一个列表I,以ABABAB...
的顺序,从两列表中顺序选取一个元素添加到I中,并记下列表I中元素的来源。I就是最终展示到用户面前的结果列表 - 统计I中来自A 和 B 或者 AB 点击或者转化的量, C(A) C(B) C(AB)
计算:
$\delta(AB) = \frac{C(A) + C(AB)*\frac{1}{2}}{C(A)+C(B)+C(AB)} - \frac{1}{2}$
$\delta(AB)$ 大于0表明A WIN B,反之B WIN A,绝对值表示差距大小。
参考:https://www.cs.cornell.edu/people/tj/publications/chapelle_etal_12a.pdf