1. 1 统计学习
统计学习研究的对象是数据 (data) 。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,然后又回到对数据的分析与预测中去。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据。统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。
对数据的预测与分析是通过构建 概率统计模型 实现的。
统计学习总的目标: 就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。
统计学习由 监督学习 (supervised learning) 、无监督学习 ( unsupervised learning) 和强化学习 (reinforcement learning) 等组成。统计学习方法的三要素:模型 (model)、策略 (strategy) 和算法 (algorithm)
实现统计学习方法的步骤如下:
(1)得到一个有限的训练、数据集合:
(2) 确定包含所有可能的模型的假设空间,即学习模型的集合;
(3) 确定模型选择的准则,即学习的策略;
(4) 实现求解最优模型的算法,即学习的算法:
(5) 通过学习方法选择最优模型:
(6) 利用学习的最优模型对新数据进行预测或分析。
1.2 统计学习的分类
基本分类
机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。
- 监督学习