有时候知道要做一个监督学习的分类模型, 但是没有直接的正反例。
往往会根据业务人员的经验,根据一些规则来筛选一批正反例,然后根据已有的特征库和这些正反例来训练模型。
模型干的事就是跟正反例 Lookalike 的情况划分。
这种模型我们怎么评估?召回和准确率不再能直接反应模型的好坏,因为规则的正例可能混入了很多反例。
所以我们更关注AUC, 它代表跟正例相似分数高于跟负例相似的样本的概率;
还可以计算双样本 Kolmogorov-Smirnov test (Wikipedia), 一个样本是正例的分数集合,一个样本是负例的分数集合。
D值越大,代表两个分布越不同,即代表通过模型将两个样本集的区分情况越强,一般D值是>=20 , 模型可用。
这类模型的优化可以以AUC 和K-S Test 中D值的提高来作为标准。