监督学习(定义)
一、输入空间、特征空间与输出空间概念
1、输入空间、输出空间
2、实例(instance)、特征向量 、特征空间。(特征空间每一维代表什么)
输入也成为实例。输出也成为观测值。
3、训练数据由“输入与输出对”构成,测试数据也由“输入与输出对”构成,
输入与输出对又称样本或样本点
4、预测任务(问题)分为三类
a、 回归问题;输入变量与输出变量均为连续变量的预测问题
b、分类问题; 输出变量为有限个离散的变量的预测问题
c、标注问题;输入变量与输出变量均为变量序列的预测问题
二、联合概率分布
假设:监督学习假设输入与输出空间的随机变量X与Y遵循联合概率分布(X ,Y),
P(X,Y)表示分布函数,或者分布密度函数;
注意:1、在学习过程中,假设这一联合概率分布的存在,但是对学习系统来说,联合概率分布的 具体定义是未知的。
2、训练数据与预测数据被看作依赖联合分布P(X,Y)独立同分布的。
3、统计学习假设数据存在一定的统计规律。X与Y具有联合概率分布的假设就是监督学 习关于数据的基本假设
以上,简言之,给了我们一对数据时,我们并不知道这些数据是否含有统计规律。但是我们假设 这些数据(X,Y)具有联合概率分布。假设了这些数据具有统计规律后,我们并不知道这些数据该使用什么算法。这就是做算法的人需要锻炼的地方。可以将数据可视化,然后,查看数据规律,然后使用相应的模型。
三、假设空间
1、(监督)学习的目的:学习一个由输入到输出的映射,这一映射由模型来表示。
2、假设空间;模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space).假设空间的确定意味着学习范围的确定。
问题的形式化
1、监督学习分为学习和预测两个过程。
2、训练数据通过训练得到一个模型。模型表现为条件概率分布或者决策函数,即描述输入和输出随机变量之间的映射关系。
3、 一个好的模型。具体的时候:。。。。对训练集有一个很好的预测,同时对未知的测试数据集的预测也有尽可能好的推广.[泛化能力强]