一、分类
1、k-临近算法(kNN)
优点:精度高、对异常值不明感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
适用数据范围:数据型和标称型
2、决策树
优点:计算复杂度不高、输出结果易理解、对中间值的缺失不敏感、可处理不相关特征数据
缺点:可能会产生过度匹配问题(需要剪枝)
适用数据范围:数值型和标称型
3、朴素贝叶斯
优点:对数据较少的情况下任然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据范围:标称型数据
4、logistic 回归
优点:计算代价不高,易于理解实现
缺点:容易大拟合,分类精度可能不高
适用数据类型:数值型和标称型
5、支持向量机
优点:泛化错误率低,计算开销不大,结果易于理解
缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅仅适用于处理二值问题
适用数据类型:数值型和标称型
6、AdaBoost元算法
优点:泛化错误率低,易编码,可应用在大部分分类器上,无参数调整
缺点:对离群点不敏感
适用数据类型:数值型和标称型
二、回归预测数值型数据
1、线性回归
优点:结果易于理解,计算上不复杂
缺点:对非线性的数据拟合不好
适用数据类型:数值型和标称型
2、树回归
优点:可对复杂和非线性数据建模
缺点:结果不易于理解
适用数据类型:数值型和标称型
三、无监督学习(聚类)
1、k-均值聚类算法
优点:容易实现
缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢
适用数据类型:数值型
2、Apriori算法
优点:易编码实现
缺点:在大数据上可能较慢
适用数据类型:数值型和标称型
3、FP-growth算法
优点:一般快于Apriori算法
缺点:实现比较困难,在某些数据集上性能会下降
适用数据类型:标称型
四、其它工具
1、主成分分析(PCA)
优点:降低数据复杂性,识别最重要的多个特征
缺点:不一定需要,可能损失有用信息
适用数据类型:数据型
2、奇异值分解(SVD)
优点:简化数据,去除噪声,提高算法效果
缺点:数据转换可能难以理解
适用数据类型:数据型
3、MapReduce
优点:可在短时间完成大量工作
缺点:算法必须经过重写,需要对系统工程有一定了解
适用数据类型:数值型和标称型