算法的R语言包:
算法名称 工具名称 函数名
Adboost adabag boosting 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。
Apriori arules apriori 是一种最有影响的挖掘布尔关联规则频繁项集的算法
C50/C4.5 C50 C5.0 是机器学习算法中的一种分类决策树算法,其核心算法是 ID3 算法。
CART rpart rpart
EM mclust mclust 最大期望值法
Kmeans stats kmeans 是一种聚类算法
KNN class knn
NavieBayes e1071 naiveBayes 在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯
PageRank igraph, plyr page.rank 是google算法的重要内容
SVM e1071 svm 一种监督式学习方法,广泛应用于统计分类以及回归分析中
算法的分类:
数据挖掘十大经典算法可以分为以下情况。
1. 与分类相关的算法:C4.5, CART,朴素贝叶斯,K近邻,支持向量,最大期望, AdaBoost
2. 与聚类相关的算法:K均值
3. 与关联规则相关的算法:Apriori
4. 与搜索引擎相关的算法:PageRank
KNN,决策树(以C4.5)为例,SVM,AdaBoost,CART,Naive Bayes 都是分类作为目的的算法,而K-means是最常见的聚类算法;Apiori是关联规则挖掘算法;EM是一种概率模型参数的算法;PageRank 是一种链接分析的算法,主要用于图数据里,对结点重要性进行排名.
参考文献:
http://www.360doc.com/content/15/0809/13/26290960_490511607.shtml