分类问题
常见的评价指标有
- 精确率(真正/(真正+假正))和召回率(真正/(真正+假负))
- 以召回率为横轴,精确率为纵轴的P-R曲线。这样的曲线越接近右上角越好。
- P-R曲线下的面积AP分数(Average precision score),不过计算不方便。
- F1值:精确率和召回率的调和平均
- 准确率和错误率(相加为1)
- ROC和AUC: 很多情况下,模型输出的预测概率,我们队预测概率排序,依次设置分类阈值,当预测概率大于阈值时为正例,否则为负例。这样就多了一个超参数,这个超参数也会影响模型的泛化能力。ROC曲线的纵坐标为真正率(召回率,正例中被预测成正例的),横坐标是假正率(假正/(假正+真负),也就是负例中被预测成正例的)。ROC曲线越接近最上角性能越好。AUC是ROC曲线下的面积,越大说明越可能将正例排在负例之前。
注意点
1.准确率和精确率是一个东西吗?
答:不是。精确率的关注重点是分对的正例,准确率是关注有多少被分对了,包括正例和反例。
- AUC有什么神奇的性质,为什么?
答:
- AUC等于随机挑选一个正例和负例,正例排在负例前的概率;
- AUC=Gini+1;
- AUC和Wilcoxon Test of Rank等价。Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本的score。
- 从ROC曲线到AUC值,再到Mann–Whitney U统计量
https://blog.csdn.net/Joyliness/article/details/79156879 讲的通俗易懂,但是还是太难懂了。搞数学的人都是富有想象力的~
回归问题
- 平均绝对误差MAE,L1范数损失。预测值和真实值的平均绝对值。MAE可以很好的刻画预测值和真实值的偏差。是对数据分布的均值进行拟合
- 加权平均误差(WMAE):MAE的变种评价指标,考虑每条样本的权重。
- 平均绝对百分误差(MAPE):误差相对于真实值的百分比值的平均值。但是对真实值为0的情况会导致这个百分比接近100%,需要修正。
- 均方根误差(RMSE): 样本的标准差。和MAE相比,对大误差样本有更大的惩罚;缺点是对离群点敏感。** 是对数据分布的平均值进行拟合**
- 均方根对数误差(RMSLE):均方根误差的变种,这种会对预测值偏小的样本有更大的惩罚。需要先把预测值转为ynew=log(y+1)。在预测之后在还原p=exp(pnew)-1
排序问题
暂时没有接触过,略过