西瓜书读书笔记 ch3线性模型 ch4决策树

项目实践中对机器学习有一些零碎的接触,通过西瓜书的学习 构建和梳理知识体系,不错的一个办法。

西瓜书写的比较深入浅出,建议机器学习者入门了解。

下面是部分章节的笔记:


ch2 模型选择和评价


阅读建议:对模型性能评价的各项指标有了了解,但是灵活运用还是比较难,建议掌握基本概念,各种算法和模型学好 有一定实操基础后再回来看。



ch3 线性模型


* 线性模型的定义和表示

f(x)=(w1,w2,...,wd)*(x1,x2,..,xd) + b

* 线性回归及参数求解

f(x) y 之间均方差最小情况求得参数 w & b

欧几里得距离最小,也叫最小二乘法进行参数估计

建模:  模型+算法+采样训练

线性回归模型 + 最小二乘法 + 采样

* 对数几率回归  逻辑回归

线性回归进行Y的预测, 逻辑回归进行Y的分类(通过对数函数保证 预测值落在固定的区间)

此处有N多公式看的比较晕,高阶可导连续凸函数。。。blabla

参数计算: 梯度下降法

建模: 逻辑回归模型 + 梯度下降算法 + 采样

* 线性判别分析 线性判别分类

linear discrimination analysis  LDA

参数计算: 类内散度矩阵  广义瑞利商  全局散度矩阵等

模型: 线性判别分类LDA + 算法 + 采样逻辑

* 多分类学习

两个策略: 部分 二分类方法可以直接推广到多分类;  多个二分类学习器解决多分类问题

多个分类器的集成策略: 一对一、一对其余、多对多

最优效果/最优参数计算方法:  编码矩阵ECOC

* 样本不均衡问题

不均衡样本问题: 欺诈和异常检测等情况,正反例的不均衡

三个解决办法:

1. 欠采样: 反例欠采样,使得正反例样本均衡; 代表算法 EasyEnsemble学习器 反例采样+正例,多次学习,尽量不丢失样本数据

2. 过采样: 衍生增加一些正例; 算法 SMOTE进行正例插值产生衍生正例

3. 阈值移动:通常的0.5阈值变为真实无偏差采样阈值(往往经验值)

* 衍生:多元稀疏问题、多标记学习

本章阅读建议: 有基础的不论,我看了两遍基本概念get了,公式和算法之类的基本了解了。



ch4 决策树


* 决策树的定义和表示

树 天然解决分类问题的好办法,最符合人的思维(麦肯锡思维中 问题树、是否树、决策树)

决策树是一个递归进行树构建的过程,目的实现对样例的归纳,实现在测试样例上的泛化能力。

* 数的划分算法

三种划分方法:

1. ID3

2. C4.5

3. CART

划分的依据:信息增益,各种公式 blabla

* 过拟合与剪枝

决策树的归纳过程,贪心算法,容易造成过拟合,需要进行剪枝,剪枝分位预剪枝、后剪枝

方法:用验证集,对树按照分类性能(信息增益)进行控制(控制树的成长)

* 数据处理

1. 连续变量的处理,通常使用二分法(又是信息增益)进行连续属性的离散化处理

2. 缺失值处理,不同的算法处理办法不同,也是产生算法差异的地方

*  多变量决策树

看的比较晕,第二遍再了解

建模: 决策树模型 + 算法(id3 c4.5 cart) + 样本处理技术(combined with 算法)

* 应用

决策树是分类模型

1. 决策树的 isolation forest 进行离群点探测

2. 决策树的组合学习方法: 树变森林

本章没有涉及,应该在后续章节中深入




ch5 神经网络


先暂停下,把线性模型、决策树  捋一捋

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容