本人在学习斯坦福大学的机器学习课程,特记录课程概要内容。课程地址: Andrew Ng机器学习课程
什么是机器学习?
本课程提供了两个机器学习的定义:
- Arthur Samuel表述机器学习为: "在进行特定编程的情况下, 给予计算机学习能力的领域。" 这是一个比较老的非正式定义。
- Tom Mitchell提供了一个更现代的定义: "一个程序被认为能从经验E中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理 T 时的表现有所提升。"
例子: 玩跳棋
- E = 玩很多次游戏的经验
- T = 玩跳棋的任务
- P = 程序赢得下场游戏的概率
一般来说,任何机器学习问题都可以归类为两个类别之一:
- 监督学习
- 无监督学习
监督学习
在监督学习中,我们会有一个数据集,并且已经知道我们正确的输出应该是什么样的,认为输入和输出之间有一个关系,并依此推测新的输出。
监督学习问题又分为“回归问题”和“分类问题”。在回归问题中,我们试图在连续输出中预测结果,这意味着我们正在尝试将输入变量映射到某些连续函数。在分类问题中,我们试图用离散输出来预测结果。 换句话说,我们正在尝试将输入变量映射到离散值。
例一:
根据房地产市场规模的数据,尝试预测房价。房屋价格可以作为房屋面积的函数的连续输出,所以这是一个回归问题。
例二:
(a) 回归问题 - 给定一个人的照片,我们根据给定的图片来预测他们的年龄。(年龄是连续的输出)
(b) 离散问题 - 给定一个癌症患者,我们预测肿瘤是恶性还是良性。(是和否,有限个数离散值)
无监督学习
无监督学习允许我们不知道或很少知道哪个结果正确处理问题。我们可以从数据导出结构,不需要知道变量的影响。
我们可以通过基于数据中的变量之间的关系对数据进行聚类来导出结构。
在无监督学习的情况下,不需要根据预测结果给予反馈(是否正确)。
例子:
聚类: 给定100万个不同的基因组,并找到一种自动将这些基因组根据不同变量(如寿命,位置,作用等)分类到相似或者相关的组的方法。
非聚类:“鸡尾酒会算法”,让您在混乱的环境中区分不同结构(即在鸡尾酒会上,从声音源中识别个人声音和音乐)。