1.1 统计学习
▶︎ 计算机系统通过运用数据及统计方法提高系统性能的机器学习。变量或变量组表述数据,数据分为连续变量和离散变量。数据多样化包括数字,文字,图像,视频,音频以及组合
▶︎ 统计学习通过构建概论统计模型实现数据数据预测与分析。基本假设:同类数据具有一定的统计规律性。目标:学习什么模型,如何学习模型,提高准确度和学习效率。
▶︎ 统计学习主要分为监督学习,非监督学习,半监督学习,强化学习
1.2 监督学习
▶︎ 基本假设:和具有联合概率分布,训练数据与测试数据为依照联合概率分布独立同分布产生
▶︎ 假设空间:模型在输入到输出的映射集合中,即假设空间中。输出预测一般为条件概率或
- 给定一个有限的训练数据集合,假设数据独立同分布
- 确定包含所有可能的模型假设空间,即模型集合
- 确定模型选择的准则,即学习策略
- 实现求解最优模型的算法,即学习算法
- 通过学习方法选择最优模型
- 利用学习最优模型对新数据进行预测或分析
▶︎ 输入输出变量为与,具体取值为与,第个输入变量为
输入实例的特征向量为
训练集为
▶︎ 分类问题
输出变量为有限个离散值,一般评价指标为分类准确率
二分类问题常用精确率与召回率。
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
精确率:
召回率:
▶︎ 标注问题
输入为观测序列,输出为标记序列或状态序列
可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的
每个取值为所有可能的观测,对新的观测序列是找到使条件概率最大的标记序列。例如隐马尔可夫模型,条件随机场
▶︎ 回归问题
输入输出均为连续,最常用的损失函数为平方损失函数,最小二乘法
1.3 统计学习三要素
方法=模型+策略+算法
▶︎ 模型
or
参数空间:参数向量取值于维欧氏空间
▶︎ 策略
损失函数度量模型一次预测的好坏, 风险函数度量平均意义下模型预测好坏
- 0-1损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数/对数似然损失函数
期望损失:模型关于联合分布的期望损失,导致病态问题
经验损失:模型关于训练样本集的平均损失,样本小时不可靠
经验风险最小化: 适合样本容量非常大,例如极大似然估计,否则出现“过拟合”。
结构风险最小化:防止过拟合,即正则化。例如最大后验概率估计
为模型复杂度;权衡经验风险和模型复杂度
▶︎ 算法
求解最优化的算法问题
1.4 模型评估与模型选择
▶︎ 模型评估:统计学习方法具体采用的损失函数未必是评估时使用的损失函数;训练误差的大小能判定问题是不是容易学习,测试误差更为重要反应学习方法对未知预测的能力
▶︎ 模型选择:所选择模型要与真模型参数个数相同且参数向量接近。模型复杂度过高则为过拟合。
1.5 正则化与交叉验证
模型选择两种常用方法可帮助选择复杂度适中的模型
▶︎ 正则化:结构风险最小化策略实现,选择经验风险与模型复杂度同时较小的模型
参数向量w的范数
参数向量w的范数
▶︎ 交叉验证:训练集用来训练模型,验证集用于模型选择,测试集用于方法评估。
1.6 泛化能力
该方法学习到的模型对未知数据的预测能力,因为仅依据测试数据集的评价结果是不可靠的。泛化误差即为所学到的模型的期望风险
▶︎ 泛化误差上界
样本容量和假设空间容量的函数
样本容量增加,趋于0
假设空间容量增加,趋于更大
经验风险最小化函数
泛化能力
1.7 生成模型与判别模型
生成模型:由数据学习联合概率分布,然后求出条件概率分布作为预测模型,朴素贝叶斯法,隐马尔可夫模型
特点:可还原出联合概率分布,学习收敛速度更快,适用于存在隐变量
判别模型:由数据直接学习活着条件概率模型,给定预测,k近邻法,感知机,决策树,logistic回归等等
特点:直接面对预测,学习准确度更高,可简化学习问题