p267 - p292
今天一定要早睡!= =
这一章挺枯燥的= =
第12章 计算学习理论
12.1 基础知识
计算学习理论研究的是关于通过“计算”来进行“学习”的理论
即关于机器学习的理论基础
目的是分析学习任务的困难本质,并根据分析结果指导算法设计。
泛化误差 vs 经验误差 数学定义(p267)
若样本符合独立同分布,则经验误差的期望等于其泛化误差。
定义泛化误差的上界:称为误差参数
对任意两个映射,可通过其“不合”来度量他们之间的差别(见p267)
给出了三个常用不等式
Jensen不等式、Hoeffding不等式、McDiarmid不等式。
见p268
12.2 PAC学习
PAC:概率近似正确学习理论。
PAC学习给出了一个抽象刻画机器学习能力的框架。
学习算法是否“可分”?
给出了几个定义:
定义12.1 PAC辨识
定义12.2 PAC可学习
定义12.3 PAC学习算法
定义12.4 样本复杂度
12.3 有限假设空间
12.3.1 可分
可分意味着目标概念c属于假设空间H
得到一个结论:
有限假设空间H都是PAC可学习的。
12.3.2 不可分情形
当c不属于H时,学习算法是无法学得目标概念c的ε近似。
但是当假设空间H给定时, 其中必存在一个泛化误差最小的假设。
找到这个假设也是个不错的选择。
这称为“不可知学习”
12.4 VC维
现实中任务大多是无限假设空间。
如实数中的所有区间。
这时需要度量假设空间的复杂度,用到的是"VC维“
概念1.增长函数
表示假设空间H对m个示例所能赋予标记的最大可能结果数。
概念2.对分
H中的假设对D中示例赋予标记的每种可能结果称为对D的一种"对分"
概念3.打散
若假设空间H能实现示例集D上的所有对分,则称D能被H打散。
大概念.VC维
H的VC维是能被H打散的最大示例集的大小。
VC维的定义与数据分布D无关!
p275的两个例子。很形象。
例12.1 实数域中的区间[a,b]
例12.2 二维实平面上的线性划分
p275-278一堆定理。
定理12.4 任何VC维有限的假设空间H都是不可知PAC可学习的。
12.5 Rademacher复杂度
VC维不考虑数据分布,使得普适。但对于特殊情况就很不好。
Rademacher复杂度,另一种刻画假设空间复杂度的途径。
它在一定程度上考虑了数据分布。
p279 - 284
12.6 稳定性
基于12.4和12.5来推到泛化误差界,所得到的结果都和具体的学习算法无关。
但在另一方面,若希望获得与算法有关的分析结果
可以考虑“稳定性”。
稳定性考虑的是
输入发生变化时,输出是否会随之发生较大的变化。
p285定义了两种变化方式,与稳定性的定义。
休息一会儿
计算学习理论是机器学习的一个分支,它可认为是机器学习与理论计算机科学的交叉