评估方法:
西瓜书里面的几种方法:
1.留出法。
随机划分,拿大部分去训练,小部分去测试。
存在的问题是划分会导致训练和测试的分布与真实分布产生偏差,不同划分可能对结果产生影响。
2.交叉验证法
多次划分取评估的平均值。
特例:留1法,k=m。当m比较大时,成本太高。
3.自助法
在原样本 D中有放回的采样m次, 得到D',m为样本的数目。采集到的样本有些是重复的,而有些采样不到。约36.8%采不到。
性能度量
分类问题:错误率、精度
查准率(precision)和查全率(recall):
P-R 曲线
EPB(break-even point):查准率=查全率
F1:2*P*R(P+R)=2*TP(ALL+TP-TN)。调和平均
Fbeta:加权调和平均
:
ROC. AUC
ROC: 横坐标: false postive rate。纵坐标:true positive rate