项目实践中对机器学习有一些零碎的接触,通过西瓜书的学习 构建和梳理知识体系,不错的一个办法。
西瓜书写的比较深入浅出,建议机器学习者入门了解。
下面是部分章节的笔记:
ch2 模型选择和评价
阅读建议:对模型性能评价的各项指标有了了解,但是灵活运用还是比较难,建议掌握基本概念,各种算法和模型学好 有一定实操基础后再回来看。
ch3 线性模型
* 线性模型的定义和表示
f(x)=(w1,w2,...,wd)*(x1,x2,..,xd) + b
* 线性回归及参数求解
f(x) y 之间均方差最小情况求得参数 w & b
欧几里得距离最小,也叫最小二乘法进行参数估计
建模: 模型+算法+采样训练
线性回归模型 + 最小二乘法 + 采样
* 对数几率回归 逻辑回归
线性回归进行Y的预测, 逻辑回归进行Y的分类(通过对数函数保证 预测值落在固定的区间)
此处有N多公式看的比较晕,高阶可导连续凸函数。。。blabla
参数计算: 梯度下降法
建模: 逻辑回归模型 + 梯度下降算法 + 采样
* 线性判别分析 线性判别分类
linear discrimination analysis LDA
参数计算: 类内散度矩阵 广义瑞利商 全局散度矩阵等
模型: 线性判别分类LDA + 算法 + 采样逻辑
* 多分类学习
两个策略: 部分 二分类方法可以直接推广到多分类; 多个二分类学习器解决多分类问题
多个分类器的集成策略: 一对一、一对其余、多对多
最优效果/最优参数计算方法: 编码矩阵ECOC
* 样本不均衡问题
不均衡样本问题: 欺诈和异常检测等情况,正反例的不均衡
三个解决办法:
1. 欠采样: 反例欠采样,使得正反例样本均衡; 代表算法 EasyEnsemble学习器 反例采样+正例,多次学习,尽量不丢失样本数据
2. 过采样: 衍生增加一些正例; 算法 SMOTE进行正例插值产生衍生正例
3. 阈值移动:通常的0.5阈值变为真实无偏差采样阈值(往往经验值)
* 衍生:多元稀疏问题、多标记学习
本章阅读建议: 有基础的不论,我看了两遍基本概念get了,公式和算法之类的基本了解了。
ch4 决策树
* 决策树的定义和表示
树 天然解决分类问题的好办法,最符合人的思维(麦肯锡思维中 问题树、是否树、决策树)
决策树是一个递归进行树构建的过程,目的实现对样例的归纳,实现在测试样例上的泛化能力。
* 数的划分算法
三种划分方法:
1. ID3
2. C4.5
3. CART
划分的依据:信息增益,各种公式 blabla
* 过拟合与剪枝
决策树的归纳过程,贪心算法,容易造成过拟合,需要进行剪枝,剪枝分位预剪枝、后剪枝
方法:用验证集,对树按照分类性能(信息增益)进行控制(控制树的成长)
* 数据处理
1. 连续变量的处理,通常使用二分法(又是信息增益)进行连续属性的离散化处理
2. 缺失值处理,不同的算法处理办法不同,也是产生算法差异的地方
* 多变量决策树
看的比较晕,第二遍再了解
建模: 决策树模型 + 算法(id3 c4.5 cart) + 样本处理技术(combined with 算法)
* 应用
决策树是分类模型
1. 决策树的 isolation forest 进行离群点探测
2. 决策树的组合学习方法: 树变森林
本章没有涉及,应该在后续章节中深入
ch5 神经网络
先暂停下,把线性模型、决策树 捋一捋