一个用户会有多个ID,两个ID之间的关联称为一个link。
我们总共定义4个状态:
1.需要link且link了的 (true positive)
2.需要link没link的 (false negative)
3.不需要link却link的 (false positive)
4.不需要link且没link的(true negative)
两个指标:
Accuracy=true positive/(true positive + false positive),这个指标代表的是ID关联的精确度,分母代表的是所有link的部分
reach=true positive/(true positive + false negatives),这个指标代表的是ID关联的覆盖度,分母代表的是所有需要link的部分
遇到两个id时,我们的模型会给这两个id的关联程度打分(0-1),同时我们会有一个阈值,比如0.66:
分值如果高于0.66,我们就会关联这两个id,生成一个link;
分值如果低于0.66,我们就不会关联这两个id。
可以想到,阈值设置得越高,我们可以生成的link肯定会越少,所以匹配范围会变小,但由于分值更高,所以两个id的关联程度是更好的,因此匹配的准确率会越高。
结论:现在市场上会有厂家表示,我们通过机器学习的ID mapping的Accuracy有多高,实际上是牺牲了reach这个指标,如果我把阈值设置得很高,那么本来就没多少link的,而且都是强关联的link,自然就能提高Accuracy,这种提法看上去不错,其实对业务而言,用处并不大。