机器学习的种类
根据处理的数据种类的不同分为:
- 监督学习
通过学习已存在的数据信息知识等,来获得对没有学习过的问题作出正确解答的能力,是监督学习的最终目标。
手写文字识别,声音处理,图像处理,垃圾邮件分类及拦截,网页检索,基因诊断,股票预测等各个方面
典型任务包括:预测数值型数据的回归,预测分类标签的分类,预测顺序的排序等 - 无监督学习
自学 不一定有明确答案 学习目标不必十分明确
人造卫星故障诊断 视频分析 社交网站解析 声音信号解析等
可作为监督学习方法的前处理工具
典型任务包括:聚类,异常检测 - 强化学习
与监督学习类似,但是不是老师给出答案,而是自己对预测的结果进行评估。通过自我评估,为了得到最好的效果而不断进行学习。
婴幼儿往往为了获得父母表扬而去做事情,因此,强化学习被认为是人类主要的学习方式之一。
机器人的自动控制 游戏中的人工智能 市场战略的最优化等
典型任务:回归 聚类 分类 降维等
机器学习任务的例子
- 回归
对一个或多个自变量和因变量之间的关系 进行建模 求解的一种统计方法。
以d维实向量x作为输入 实数y作为输出
真实函数关系y= f(x)是未知的
作为训练集的输入输出样本{(x,y)} 是已知的
一般情况输出样本的y经常会观察到噪声
输入样本x就是 学生向老师提出的问题
输出样本y是老师对学生做出的回答
输出样本的噪声就是老师的教学错误或者学生的理解错误
学生通过学习获得的函数以y=F(x)来表示
那么学生对没有学习过的问题也能做出正确回答的泛化能力 就可以通过比较函数f(x)和F(x)的相似性来分析
- 分类
对于指定的模式进行识别的有监督的模式识别问题
以d维实向量x作为输入样本 而所有的输出样本可以被划分为c个类别
作为训练集的输入输出样本{(x,y)}是已知的
输出样本y代表类别1,2,3...c
学习得到函数关系y=f(x)
- 异常检测
寻找输入样本中所包含的异常数据的问题
输入样本中 对于什么数据是正常的 什么数据是异常的 是未知的
在这样的无监督的异常检测问题中,一般采用密度估计的方法,把靠近密度中心的数据作为正常的数据,偏离密度中心的数据作为异常的数据。 - 聚类
与分类问题相似 也是模式识别的问题 但是属于无监督学习的一种
只给出输入样本{x} 然后判断各个样本分别属于1,2,3,4...c中的哪个簇。
聚类问题中 经常以 簇 代替 类别 - 降维
指从高维度的数据中提取关键信息,将其转换为易于计算的低维度问题来进行求解的方法
当输入样本{x}的维度d非常大的时候 可以把样本转换为较低维度的样本{z}
线性降维的情况下,可以使用横向量T 将其变换为 z=Tx
根据数据种类的不同 可分为监督学习和无监督学习
机器学习的方法
以对模式x的类别y进行预测的分类问题为例
产生式分类和判别式分类
频率派和贝叶斯派
学习模型
线性模型
核模型
层级模型