--基本概念了解
天气:晴,阴,雨
温度:暖,冷
湿度:普通,大
风力:强,弱
水温:暖,冷
预报:一样,变化
享受运动:是,否 (1, 0)
———概念定义在实例(instance)集合之上,在这个集合表示为X。(X: 所有可能的日子,每个日子的值由天气,温度,湿度,风力,水温,预报6个属性表示)
待学习的概念或目标函数成为目标概念(target concept).记做c。
c(x) = 1,当享受运动时,c(x) = 0,当不享受运动时,c(x)也可叫做y
x:每一个实例
X:样例,所有实例的集合
学习目标:f:X -> Y
- 训练集(training set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集
测试机(testing set/data)/测试样例(testing examples):用来专门进行测试已经学习好的模型或者算法的数据集
特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例
标记(label):c(x),实例类别的标记
正例(positive example)
反例(negative example)
例子
研究美国硅谷房价
影响房价的两个重要因素:面积(平方米),学区(评分1-10)
分类(classification):目标标记为类别行数据(category)
回归(regression):目标标记为连续性数值(continuous numeric value)研究肿瘤良性,恶性于尺寸,颜色的关系
特征型:肿瘤尺寸,颜色
标记:良性,恶性有监督学习(supervised learning):训练集有类别标记(class label)
无监督学习(unsupervised learning):无类别标记(class label)
半监督学习(semi-supervised learning):有类别标记的训练集+无标记的训练集