1 什么是机器学习?
在计算机上从 “数据” 中产生“模型”的算法,即 ”学习算法“。
有了学习算法,我们把经验数据提供给它,就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。
2 基本术语
2.1 数据集(data set)
记录的集合称为一个数据集,比如MNIST数据集。
数据集可以分为训练集、验证集和测试集。训练集是训练过程中使用的数据;验证集是模型评估与选择中用于评估测试的数据集;测试集是测试模型对新样本判别能力的数据集。
2.2 样本(sample)
关于一个事件或对象的描述的每条记录称为一个样本,比如MNIST数据中的一张图片就是一个样本。
2.3 特征(feature)
反映事件或对象在某方面的表现或性质的事项,称为特征,也可以称为属性。
2.4 样本空间(sample space)
特征(属性)张成的空间。
2.5 标记(label)
关于样本结果的信息,称为标记。拥有了标记信息的样本,被称为样例。若将标记看作对象本身的一部分,则样例有时也称作样本。所有标记的集合被称为标记空间。
2.5 举例
若 D = { } 为一个包含m个元素的数据集,
每个x就是一个样本,若每个样本由d个属性描述,则每个样本可表示为
d 就表示D中的样本由d个特征
每个样本中的元素表示第 j 个特征的值
这些特征张成的d维空间称为样本空间
若表示第 i 个样例,则 就是样本 的标记,所有组成的集合就是标记空间。
3 机器学习任务分类
根据训练数据是否有标记,学习任务可以划分为两大类:“监督学习(supervised learning)” 和 “无监督学习(supervised learning)”
3.1 监督学习(supervised learning)
数据集中的样本有标记。
3.1.1 分类(classification)
预测的是离散值,此类学习任务被称为“分类”。根据预测类别数目的不同,可以分为二分类任务和多分类任务。MNIST数据集的手写数字识别任务,要预测数字属于0到9中的哪一个,这是一个分类任务,并且是一个多分类任务
3.1.2 回归(regression)
预测的是连续值,此类学习任务被称为“回归”,比如房价的预测。
3.2 无监督学习(supervised learning)
数据集中的样本无标记。
3.2.1 聚类(clustering)
将数据集中的样本分成若干组,每组称为一个“簇(cluster)”;这些自动形成的簇可能对应一些潜在的概念划分。这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。
参考书目周志华老师的《机器学习》