1.1 统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
统计学习的前置知识:工科数学(高等数学),线性代数,概率论,一门基础编程语言(python)
统计学习的步骤:有限数据-》假设空间-》学习策略-》实现算法-》选择最优-》预测新数据
1.2 统计学习的分类
基本分类:监督学习,无监督学习,半监督学习,强化学习
监督学习:监督学习的本质是学习输入到输出的映射的统计规律。
训练集:输入空间(),特征空间(),输出空间()
联合概论分布:统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基本假设。
假设空间:备选模型
决策模型-》 预测形式-》
条件概论分布-》 预测形式-》
无监督学习:无监督学习的本质是学习数据中的统计规律或潜在结构。
分类,关联规则,维度缩减。应用场景:图片降噪
强化学习:基于环境而行动。
模型分类:概率模型与非概率模型,线性模型与非线性模型,参数化模型与非参数化模型
概率模型与非概率模型:
概率模型:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析,以及神经网络
逻辑斯谛回归既可看作是概率模型,又可看作是非概率模型。
线性模型与非线性模型:
线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析
非线性模型:核函数支持向量机、AdaBoost、神经网络
参数化模型与非参数化模型:
参数化模型:感知机、朴素贝叶斯、逻辑斯谛回归、k均值、高斯混合模型
非参数化模型:决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配
算法分类:在线学习与批量学习
技巧分类:贝叶斯学习,核方法
贝叶斯学习:朴素贝叶斯、潜在狄利克雷分配
核方法:核函数支持向量机,以及核PCA、核k均值
1.3 统计学习方法三要素
模型+策略+方法
模型:假设空间
决策函数:
条件概率分布:
策略:损失函数
0-1损失,平方损失,绝对值损失,对数似然损失
准则:在结构风险最小化中,我们通常选择模型复杂度低,经验风险最小的模型。当很小,认为模型复杂度不重要。
经验风险最小化:
结构风险最小化:
算法:寻找全局最优
1.4 模型评估与模型选择
评估:训练误差与测试误差。
当训练误差很小时,测试误差却很大,说明出现的过拟合。
过拟合举例:多项式拟合问题。
1.5 正则化与交叉验证
模型选择的典型方法是正则化(regularization)。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer) 或罚(penalty term)。正则化符合奧卡姆剃刀(Occam's razor)原理。
二范数形式:
一范数形式:
另-种常用的模型选择方法是交叉验证(crossvalidation)。有简单交叉验证,S折交叉验证,留一交叉验证
1.6 泛化能力
1.7 生成模型与判别模型
生成方法:
判别方法:或
生成模型有朴素贝叶斯法和隐马尔可夫模型。
典型的判别模型包括: k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
1.8 监督学习应用
分类问题+标注问题+回归问题