线性模型 (Linear Model) :
原理
3.1 线性回归
- 最小均方误差(square loss) - 即是 最小二乘的参数估计
- 当变量数据超过样本数据时(解线性方法时变量过多,会出现多组解),选择哪一个解作为输出将由学习算法的归纳偏好决定,常见的做法是引入正则化 (regularization)项。
3.2 对数几率回归(logistic regression)
- 分类:只需要找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
- Sigmoid函数
3.3 线性判别分析(Linear Discriminant Analysis, LDA)
- LDA基本思想: 给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
3.4 类别不平衡问题
- 再缩放(rescaling):“训练集是真实样本的无偏采样”这个假设往往不成立,也就是说,我们未必能有效地基于训练集观测几率推断出真实几率。
- 解决方法:
- 欠采样(undersampling):EasyEnsemble算法
- 过采样(oversampling):SMOTE算法
- 阈值移动(threashold-moving)