统计学习方法笔记(第一章个人笔记)
标签:机器学习深度学习
P15 泛化能力
- 1.6.1 泛化误差定义
如果学到的模型是$f$,则用这个模型对未知数据预测的误差即为泛化误差
$$R_exp(f)=E_p[L(Y,f(X))]=∫_{x*y}L(y,f(x))P(x,y)dxdy$$ - 1.6.2泛化误差上界
通过比较两种学习方法的泛化误差上界来比较它们的优劣。泛化误差上界是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
P19分类问题
- 这里结合吴恩达机器学习里的偏斜率谈一谈分类问题:
对于而非类问题,常用的评价指标是精确率(查准率)与召回率,对于分类器的预测,有四种情况:
TP——将正类预测为正类的数目;
FN——将正类预测为负类的数目;
FP——将负类预测为正类的数目;
TN——将负类预测为负类的数目;
精确率(查准率)定义为:
$$P=\frac{TP}{TP+FP}$$
召回率定义为:
$$R=\frac{TP}{TP+FN}$$
另外对于查准率和召回率的调和均值(由于在训练中,这两个值会此消彼长,需要一个值来结合它们衡量算法好坏)
$$\frac2F_1=\frac1P+\frac1R$$
$$F_1=\frac{2TP}{2TP+FP+FN}$$