一、机器学习介绍
三、为什么我们需要学习机器学习?
一 、机器学习介绍
1950年 人工智能(AI)、 Artificial Intelligence
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
1980年 机器学习(ML) 、Mechine Learning
机器学习是一种数据分析方法,它可以自动分析模型的建筑。 通过使用迭代学习数据的算法,机器学习可以使电脑在没有被明确编程看哪里的情况下,发现隐藏的领域。 迭代在机器学习中是非常重要的,由于它的存在,模型在遇到新的数据时,就可以独立地适应数据。 它们可以从先前产生的可靠计算,重复的决定和结果中进行学习。
2010年 深度学习(DL)、Deep Learning
深度学习是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和循环神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并取得了极好的效果。
人工智能是我们想要达成的目标,而机器学习是想要达成目标的手段,希望机器通过学习方式,他跟人一样聪明。而深度学习和机器学习有什么关系呢?深度学习就是机器学习的其中一种方法。
二、机器学习相关的技术
2.1 监督学习
监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。 监督学习是从标记的训练数据来推断一个功能的机器学习任务。 训练数据包括一套训练示例。 在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。
监督学习的应用:
高斯朴素贝叶斯
场景:该模型常用于性别分类( https://en.wikipedia.org/wiki/Naive_Bayes_classifier#Sex_classification),即通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。
优点:这个模型的优势是处理连续数据,特别当数据是高斯分布时,有一个很好的表现。处理连续数据数值问题的另一种常用技术是通过离散化连续数值的方法。通常,当训练样本数量较少或者是精确的分布已知时,通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现最优,因为大量的样本可以学习到数据的分布。
缺点:由于高斯朴素贝叶斯使用的是概率分布估计的方法,不合适在大数据集上应用,因为容易出现欠拟合,在数据分布不准确时或数据样本很大时,表现很差。
决策树
场景:百度到一个相亲用决策树的应用,每个节点是一个评判标准,最后决定是否要嫁/娶。
优点:决策过程接近人的思维习惯,模型容易理解。
缺点:决策树学习方法的准确率不如其他模型,不支持在线学习,有新样本来的时候需要重建决策树,容易产生过拟合现象。(http://m.blog.csdn.net/article/details?id=47616255)
KNN
场景:KNN的应用有分类未知案例的项目(摘自百度百科)。
优点:无需估计参数,简单,易于理解。特别适合于多分类问题(multi-modal,对象具有多个类别标签), KNN比SVM的表现要好(svm更适合二分类)。
缺点:当有偏斜类的情况下,由于算法只计算最近的k个样本,假设小样本总数小于k/2,即使都很近,也会分错。该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。
集成学习之AdaBoost
场景:人脸检测,AdaBoost以弱学习器作为基分类器,并且输入数据,使其通过权重向量进行加权,第一次迭代时所有数据等权重,在后续迭代中,前次迭代分错的数据权重会增大。
优点:它有错误调节能力,分类精度高;在Adaboost的框架下可以使用各种回归分类模型来构建弱学习器,非常灵活;作为简单的二元分类器时,构造简单,结果可理解;不容易发生过拟合。
缺点:对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。
SVM
场景:进行文本的分类
优点:在解决小样本、非线性以及高维模式识别中表现出许多特有的优势,对于非线性的分类问题,可以通过核函数把原来低维的空间中线性不可分的问题映射到高维,变成线性可分的问题进而得以解决。同样,也可以采用SMO的方式,将分解的思维推向极致,用SVM来处理多分类的问题。
缺点:在处理数据上面的时间较慢,复杂度较高,在处理多分类的问题上面存在着不足,还需要在二分类的基础上自己构造多分类相关的算法,代价比较大。
随机梯度下降分类器(SGDC)
场景:图片分类。
优点:普通的梯度下降算法在更新回归系数时要遍历整个数据集,是一种批处理方法,这样训练数据特别忙庞大时,可能出现收敛过程可能非常慢、不能保证找到全局最小值这样的问题。而随机梯度下降分类器能够更好地处理上述问题,更能避免进入局部极小值中。SGDC处理大规模问题表现比较好。
缺点:不太适合用于高精度问题,当处理高精度问题时它的表现很差。
Logistic回归
场景:主要用于危险因素探索(摘自百度百科)
优点:分类时计算量非常小,速度很快,易于理解和实现。他是一个单调上升的函数,具有良好的连续性,不存在不连续点。
缺点:当特征空间很大时,逻辑回归的性能不是很好;容易欠拟合,一般准确度不太高;不能很好地处理大量多类特征或变量;对于非线性特征,需要进行转换;只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分。
来源:https://www.zhihu.com/column/p/30672994
2.2 半监督学习
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。 半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
半监督学习的应用:
MixMatch: A Holistic Approach to Semi-Supervised Learning
MixMatch:一种半监督学习的整体性方法
https://arxiv.org/abs/1905.02249
论文摘要:半监督学习方法的提出是为了更好地利用未标注的数据,减轻对于大规模标注数据集的依赖;如今也证明了这是一种强有力的学习范式。在这篇论文中,作者们把当前不同任务中的做法为半监督学习做了统一,得到了一种新的算法,MixMatch,它的工作方式是通过 MixUp 猜测数据扩增方法产生的无标签样本的低熵标签,并把无标签数据和有标签数据混合起来。作者们通过实验表明 MixMatch 在多种不同的数据集、多种不同的有标签数据规模中都能以很大幅度领先此前的所有方法。比如,在 CIFAR 数据集上、只有 250 个标签的情况下,作者们把错误率降低到了之前方法的 1/4,在 STL-10 数据集上也降低到了之前方法的一半。作者们也展示了 MixMatch 可以在差分隐私的使用目的下,在准确率和隐私保护之间取得好得多的平衡。最后,作者们进行了对照实验,分析了 MixMatch 方法中的哪些组件最为关键。
来源:https://www.leiphone.com/category/academic/hJk7ZcPYtuzgSP7Y.html
2.3 迁移学习
迁移学习(transfer learning)通俗来讲,就是运用已有的知识来学习新的知识,核心是找到已有知识和新知识之间的相似性,用成语来说就是举一反三。 ... 迁移学习研究如何把源域的知识迁移到目标域上。 特别地,在机器学习领域中,迁移学习研究如何将已有模型应用到新的不同的、但是有一定关联的领域中。
迁移学习的应用:
NLP中的迁移学习: 对ML和深度学习而言,文本数据提出了各种各样的挑战。通常,我们使用不同的向量化技术转换文本。基于不同的训练数据集,我们得到了Word2Vec和FastText之类的嵌入。通过从源任务迁移知识,它们可以用于不同的任务,例如情绪分析和文档分类。除此之外,普适句编码器和BERT这类较新的模型毫无疑问地展现了未来的无穷可能。
音频/语言中的迁移学习: 类似NLP和计算机视觉,深度学习也在基于音频数据的任务中得到了广泛应用。例如,针对英语的自动语音识别(ASR)模型成功用于提升德语等其他语言的识别表现。自动识别说话人则是迁移学习大有助益的另一个例子。
计算机视觉中的迁移学习: 基于不同的CNN架构,深度学习在多种计算机视觉任务上的应用取得了相当大的成功。Yosinski及其协作者的论文How transferable are features in deep neural networks(深度神经网络中特征的迁移性如何)揭示了低层如何提取边缘等计算机视觉特征,最终层如何作用于任务特定的特征。因此,这些发现帮助我们在风格迁移和人脸识别等目标任务中利用VGG、AlexNet、Inception等现有的当前最先进模型,目标任务和这些模型原本训练的任务不同。
来源:https://zhuanlan.zhihu.com/p/51620530
2.4 无监督学习
无监督学习是机器学习的一个分支,它从未经标记,分类或分类的测试数据中学习。 无监督学习不是响应反馈,而是根据每个新数据中是否存在这种共性来识别数据中的共性并做出反应。 替代方案包括监督学习和强化学习。 无监督学习的中心的应用是在领域密度估计在统计,[1]虽然无监督学习包括许多涉及总结和解释数据的特征的其他结构域
无监督学习的应用:
Unsupervised Data Augmentation
无监督数据扩增
https://arxiv.org/abs/1904.12848
论文摘要:面对渴求大量数据的深度学习,数据扩增方法可以缓和一部分需求,但数据扩增方法往往只应用在有监督学习设定中,带来的提升也较为有限。在这篇论文中,作者们提出了一种在半监督学习设定中,把数据扩增方法运用在未标注数据上的新方法。他们的方法,无监督数据扩增 UDA,会鼓励模型面对未标注数据和扩增过的未标注数据时产生一致的预测。与此前使用高斯噪声和 dropout 噪声的方法不同,UDA 有一些小的调整,它借助目前最先进的数据扩增方法产生了难度更高、更真实的噪声。这些小调整让 UDA 在六种语言任务、三种视觉任务中都带来了显著的表现提升,即便使用到的有标注数据集非常小。比如,在 IMDb 数据集的分类测试中,UDA 只使用 20 个标签就得到了比此前最好的方法在 25,000 个有标签数据上训练更好的结果。在标准的半监督学习测试(CIFAR-10,4000 个标签;以及 SVHN,1000 个标签)中,UDA 击败了此前所有的方法,而且把错误率降低了至少 30%。UDA 在大规模数据集上也有好的表现,比如在 ImageNet 上,只需要额外增加 130 万张无标签图像,相比此前的方法,UDA 也可以继续提升首位和前五位命中率。
来源:https://www.leiphone.com/category/academic/hJk7ZcPYtuzgSP7Y.html
2.5 监督学习中的结构化学习
结构化学习的应用:
语音识别,机器翻译,人脸识别 (简单来说就是:输入非结构化数据,输出结构化数据)
2.6 强化学习
强化学习(英語:Reinforcement learning,簡稱RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。 ... 其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。强化学习已经取得了很多骄人的成绩,比如AlphaGo. 强化学习也有很多应用。 这里按如下类别收集了一些强化学习应用:产品级应用、机器人、计算机视觉、计算机系统、健康、交通、教育、金融、“科学、工程和艺术”、能源、商业管理、游戏、自动驾驶、以及自然语言处理。
强化学习的应用:
Overview on Algorithms and Applications for Reinforcement Learning
强化学习算法与应用综述
http://www.c-s-a.org.cn/html/2020/12/7701.html
论文摘要:强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-利用问题. 其次, 回顾强化学习经典算法, 包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法, 以及综述强化学习前沿研究, 主要介绍多智能体强化学习和元强化学习方向. 最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用, 以及总结与展望.
三、为什么我们需要学习机器学习?
参考阅读
李宏毅b站地址:https://www.bilibili.com/video/av59538266
官网的task:https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html
论坛版块:http://datawhale.club/c/31-category/31
开源内容:https://github.com/datawhalechina/leeml-notes