分类指标:
准确率 accuracy
查准率 precision = TP/(TP+FP)
查全率 recall = TP/(FN+TP)
F1分数
回归指标:
平均绝对误差,均方误差
回归分数函数:R2分数 ,可释方差分数
误差的两个主要来源
1,因模型无法表示基本数据的复杂度(欠拟合)而造成的偏差bias;
high bias的特点是:pay little attention to data, over-simplified, low R2, high SSE(回归平方误差之和)
2,因模型对训练它所用的有限数据过度敏感(过拟合)而造成的方差variance
high variance的特点是:pay too much attention to data, does not generalize well
借用西瓜书上的比喻,用机器学习来判断一个物体是不是树叶,underfitting是以为所有绿色的都是树叶(没学会该学的);overfitting是以为树叶都要有锯齿(学过头了,不该学的也学了进去)。这两者都不是我们想要的。