1,常用的分类与预测算法
回归分析(连续)
线性回归 一般用作预测
非线性回归
Logistic回归 (因变量为0,1) 一般用作分类
岭回归
主成分回归
偏最小二乘回归
决策树(离散)
人工神经网络
贝叶斯网络
支持向量机(离散)
2, 算法详解
2.1 回归分析
Logistic 回归 (概率型非线性回归)
☉ 特征筛选 (可以用scikit-learn feature_selection)
☉ 估计模型回归系数
☉ 模型检验
☉ 模型应用
2.2 决策树
ID3算法, C4.5算法, CART算法,SLIQ算法,SPRINT算法,PUBLIC算法
☉ ID3算法 通过信息增益作为属性的选择标准 ,一般处理离散型的描述属性
GainA(A信息增益)= Info (总的信息熵) - InfoA (A信息熵) A为某属性
☉ C4.5算法 通过信息增益率作为属性的选择标准,可以处理离散及连续的描述属性
☉ CART算法是一种非参数分类和回归方法
2.3 人工神经网络
激活函数:域值函数,分阶段函数,非线性函数,Relu函数
☉ BP神经网络(求解算法用新型的逐层训练算法,就是深度学习)
☉ LM神经网络
☉ RBF径向基神经网络
☉ FNN模糊神经网络
☉ GMDH神经网络
☉ ANFIS神经网络
☉ 。。。
python 中的Keras算法库适用于人工神经网络模型。
人工神经网络的拟合能力强,为了防止过拟合,流行做法是让部分神经网络节点休眠。
3,分类与预测算法评估
绝对误差与相对误差
平均绝对误差
均方误差
均方根误差
平均绝对百分误差
Kappa统计
误差准确度
识别准确度
反馈率
ROC曲线
混淆矩阵