《机器学习实战》算法总结

缺失值


  1. 使用可用特征的均值来填补缺失值
  2. 使用特殊值来填补缺失值,如-1
  3. 忽略有缺失值的样本
  4. 使用相似样本的均值添补缺失值
  5. 使用另外的机器学习算法预测缺失值。

k-近邻算法


  • 优点:精度高、对异常值不敏感、无数据输入假定。

  • 缺点:计算复杂度高、空间复杂度高。

  • 适用数据范围:数值型和标称型。

k近邻算法的一般流程

  1. 收集数据:可以使用任何方法。
  2. 准备数据:距离计算所需要的数值,最好是结构化的数据格式。
  3. 分析数据:可以使用任何方法。
  4. 训练算法:此步骤不适用于k近邻算法。
  5. 测试算法:计算错误率。
  6. 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

决策树


  • 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

  • 缺点:可能会产生过度匹配问题。

  • 适用数据类型:数值型和标称型。

决策树的一般流程

  1. 收集数据:可以使用任何方法。
  2. 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。
  3. 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。
  4. 训练算法:构造树的数据结构。
  5. 测试算法:使用经验树计算错误率。
  6. 使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。

朴素贝叶斯


  • 优点:在数据较少的情况下仍然有效,可以处理多类别问题。

  • 缺点:对于输入数据的准备方式较为敏感。

  • 适用数据类型:标称型数据。

朴素贝叶斯的一般过程:

  1. 收集数据:可以使用任何方法。本章使用RSS源。
  2. 准备数据:需要数值型或者布尔型数据
  3. 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
  4. 训练算法:计算不同的独立特征的条件概率。
  5. 测试算法:计算错误率。
  6. 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。

Logistic回归

  • 优点:计算代价不高,易于理解和实现。

  • 缺点:容易欠拟合,分类精度可能不高。

  • 适用数据类型:数值型和标称型数据。

Logistic回归的一般过程

  1. 收集数据:采用任意方法收集数据。
  2. 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。
  3. 分析数据:采用任意方法对数据进行分析。
  4. 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。
  5. 测试算法:一旦训练步骤完成,分类将会很快。
  6. 使用算法:首先,我们需要一些输入数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归计算,判定它们属于哪个类别;在这之后,我们就可以在输出的类别上做一些其他分析工作。

支持向量机


  • 优点:泛化错误率低,计算开销不大,结果易解释。

  • 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。

  • 适用数据类型:数值型和标称型数据。

SVM的一般流程

  1. 收集数据:可以使用任意方法。
  2. 准备数据:需要数值型数据。
  3. 分析数据:有助于可视化分隔超平面。
  4. 训练算法:SVM的大部分时间都源自训练,该过程主要实现两个参数的调优。
  5. 测试算法:十分简单的计算过程就可以实现。
  6. 使用算法:几乎所有分类问题都可以使用SVM,值得一提的是,SVM本身是一个二类分类器,对多类问题应用SVM需要对代码做一些修改。

AdaBoost


  • 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整

  • 缺点:对离群点敏感。

  • 适用数据类型:数值型和标称型数据。

AdaBoost的一般流程

  1. 收集数据:可以使用任意方法。
  2. 准备数据:依赖于所使用的弱分类器类型,本章使用的是单层决策树,这种分类器可以处理任何数据类型。当然也可以使用任意分类器作为弱分类器。作为弱分类器,简单分类器的效果更好。
  3. 分析数据:可以使用任意方法。
  4. 训练算法:AdaBoost的大部分时间都用在训练上,分类器将多次在同一数据集上训练弱分类器。
  5. 测试算法:计算分类的错误率。
  6. 使用算法:同SVM一样,AdaBoost预测两个类别中的一个。如果想把它应用到多个类别的场合,那么就要像多类SVM中的做法一样对AdaBoost进行修改。

线性回归


  • 优点:结果易于理解,计算上不复杂。

  • 缺点:对非线性的数据拟合不好。

  • 适用数据类型:数值型和标称型数据。

回归的一般方法 收集数据:采用任意方法收集数据。

  1. 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。
  2. 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。
  3. 训练算法:找到回归系数。
  4. 测试算法:使用R2或者预测值和数据的拟合度,来分析模型的效果。
  5. 使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

树回归


  • 优点:可以对复杂和非线性的数据建模

  • 缺点:结果不易理解

  • 适用数据类型:数值型和标称型数据

树回归的一般方法

  1. 收集数据:采用任意方法收集数据。
  2. 准备数据:需要数值型的数据,标称型数据应该映射成二值型数据。
  3. 分析数据:绘出数据的二维可视化显示结果,以字典方式生成树。
  4. 训练算法:大部分时间都花费在叶节点树模型的构建上。
  5. 测试算法:使用测试数据上的R2值来分析模型的效果。
  6. 使用算法:使用训练出的树做预测,预测结果还可以用来做很多事情

k均值聚类


  • 优点:容易实现。

  • 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。

  • 适用数据类型:数值型数据。

K均值聚类的一般流程

  1. 收集数据:使用任意方法。
  2. 准备数据:需要数值型数据来计算距离,也可以将标称型数据映射为二值型数据再用于距离计算。
  3. 分析数据:使用任意方法。 训练算法:不适用于无监督学习,即无监督学习没有训练过程。
  4. 测试算法:应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和(后面会介绍)来评价算法的结果。
  5. 使用算法:可以用于所希望的任何应用。通常情况下,簇质心可以代表整个簇的数据来做出决策。

Apriori算法


  • 优点:易编码实现

  • 缺点:在大数据集上可能较慢

  • 适用数据类型:数值型或者标称型数据

Apriori算法的一般过程

  1. 收集数据:使用任意方法。
  2. 准备数据:任何数据类型都可以,因为我们只保存集合。
  3. 分析数据:使用任意方法。
  4. 训练算法:使用Apriori算法来找到频繁项集。
  5. 测试算法:不需要测试过程。
  6. 使用算法:用于发现频繁项集以及物品之间的关联规则。

FP-growth算法


  • 优点:一般要快于Apriori

  • 缺点:实现比较困难,在某些数据集上性能会下降

  • 适用数据类型:标称型数据

FP-growth的一般流程

  1. 收集数据:使用任意方法。
  2. 准备数据:由于存储的是集合,所以需要离散数据。如果要处理连续数据,需要将它们量化为离散值。
  3. 分析数据:使用任意方法。
  4. 训练算法:构建一个FP树,并对树进行挖据。
  5. 测试算法:没有测试过程。
  6. 使用算法:可用于识别经常出现的元素项,从而用于制定决策、推荐元素或进行预测等应用中。

PCA 主成分分析


  • 优点:降低数据的复杂性,识别最重要的多个特征。

  • 缺点:不一定需要,且可能损失有用信息。

  • 适用数据类型:数值型数据。

奇异值分解(Singular Value Decomposition,SVD)。


  • 优点:简化数据,去除噪声,提高算法的结果。

  • 缺点:数据的转换可能难以理解。

  • 适用数据类型:数值型数据。

MapReduce:分布式计算的框架


  • 优点:可在短时间内完成大量工作。

  • 缺点:算法必须经过重写,需要对系统工程有一定的理解。

  • 适用数据类型:数值型和标称型数据。

在MapReduce框架上使用SVM的一般方法

  1. 收集数据:数据按文本格式存放。
  2. 准备数据:输入数据已经是可用的格式,所以不需任何准备工作。如果你需要解析一个大规模的数据集,建议使用map作业来完成,从而达到并行处理的目的。
  3. 分析数据:无。
  4. 训练算法:与普通的SVM一样,在分类器训练上仍需花费大量的时间。
  5. 测试算法:在二维空间上可视化之后,观察超平面,判断算法是否有效。
  6. 使用算法:本例不会展示一个完整的应用,但会展示如何在大数据集上训练SVM。该算法其中一个应用场景就是文本分类,通常在文本分类里可能有大量的文档和成千上万的特征。

[美]Peter Harrington. 机器学习实战 (图灵程序设计丛书 72)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容