机器学习是实现人工智能的手段,其主要研究内容是如何利用数据或经验进行学习,改善具体算法的性能。
- 多领域交叉,涉及概率论、统计学,算法复杂度理论等多门学科。
- 广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和医疗诊断等应用。
数据挖掘和预测竞赛平台:https://www.kaggle.com和阿里天池
分类
-
无监督学习:利用无标签/标准答案的数据,学习数据的分布或数据与数据之间的关系抽取出通用的规则,达到聚类和降维的目的。最常见的用途是将数据分为不同的聚类,使相似的样本位于同一组中。例如,无监督学习算法可以根据音乐的各种属性将歌曲分为不同的聚类。所以聚类可以作为其他机器学习算法(例如音乐推荐服务)的输入,在很难获取真标签的领域,聚类可能会非常有用。例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解相关数据。
主要算法:聚类、主成分分析(PCA)、K-means、 -
半监督学习:给出的训练数据,有一部分有标签,有一部分没有标签,我们想学习出数据组织结构的同时,也能做相应的预测。半监督学习采用的一种技术是推断无标签样本的标签,然后使用推断出的标签进行训练,以创建新模型。如果获得有标签样本需要高昂的成本,而无标签样本则有很多,那么半监督学习将非常有用。
主要算法:自训练(Self-Training)、直推学习(Transductive Learning)、生成式模型(Generative Model)等。 -
监督学习:利用一组带有标签/标准答案的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类和回归的目的。简单口语化地说明,在给定的训练样本中,每个样本的输入X都对应一个确定的结果Y,我们需要训练出一个模型(数学上看是一个x→y的映射关系f),在未知结果的样本X给定后,我们能对结果Y做出预测。
这里的预测结果Y如果是离散值(很多时候是类别类型,比如邮件分类问题中的垃圾邮件/普通邮件,用户会/不会购买某商品),我们把它叫做分类问题(classification problem);如果预测结果Y是连续值(比如房价,股票价格等),我们把它叫做回归问题(regression problem)。
主要算法:分类问题(朴素贝叶斯、逻辑回归、支持向量机(SVM)等);回归问题(线性回归、)决策树、k近邻(KNN)、集成学习。 - 增强学习:允许代理根据其当前状态决定最佳的下一个动作,通过学习将最大化奖励的行为。增强算法通常通过反复试验来学习最佳行为,通常用于机器人。机器人可以通过在碰到障碍物后接收负面反馈来学习避免碰撞,以及在视频游戏中 - 反复试验显示特定动作可以激发玩家的奖励。代理人然后可以使用这些奖励来了解游戏的最佳状态并选择下一个动作。
- 深度学习:是机器学习中人工神经网络算法的延申,广泛应用在计算机视觉和自然语言处理中,是机器学习的深入。
scikit-learn库
sklearn库分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。