统计学习方法——修炼学习笔记5:决策树

一、决策树

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。(简单说就是用我们熟悉的树结构去做回归和分类)

学习时, 利用训练数据, 根据损失函数最小化的原则建立决策树模型。 预测时, 对新的数据, 利用决策树模型进行分类。 决策树学习通常包括3个步骤: 特征选择、决策树的生成和决策树的修剪。

image.png

与决策树相关的重要算法包括:CLS,ID3、 C4.5与CART。
决策树的基本组成部分:决策结点、分支、叶子
决策树中最上面的节点称为根结点。是整个决策树的开始,每个分支是一个新的决策节点,或者是树的叶子。每个决策结点代表一个问题或者决策。通常对应待分类对象的属性。每个叶结点代表一种可能的分类结果。
在沿着决策树从上到下遍历过程中,在每个节点都有一个测试。对每个结点上问题的不同测试输出导致不同的分歧,最后会打到一个叶子结点。这一过程就是利用决策树进行分类的过程,利用若干个变量来判断属性的类别

决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布。

条件概率分布定义在特征空间的一个划分上,将特征空间划分为互不相交的单元或区域,并在每个单元定义的一个类的概率分布就构成了一个条件概率分布。

决策树的一条路径对应于划分中的一个单元。

决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。这个条件概率分布可以表示为P(Y|X)。 X取值于给定划分下单元的集合, Y取值于类的集合。 各叶结点(单元) 上的条件概率往往偏向某一个类, 即属于某一类的概率较大。 决策树分类时将该结点的实例强行分到条件概率大的那一类去。


image.png

决策树学习

  • 决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树
  • 能对训练数据进行正确分类的决策树可能有多个,也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。
  • 决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个
  • 我们选择的条件概率模型应该不仅对训练数据有很好的拟合,而且对未知数据有很好的预测。

决策树学习的策略:以损失函数为目标函数的最小化

二、决策树算法

决策树的学习算法分为三步:首先递归的选择特征、用选择的特征构造一个决策树、解决过拟合进行决策树剪枝。

1、特征选择

特征选择问题:特征选择在于选取对训练数据具有分类能力的特征。通常特征选择的准则是信息增益或信息增益比。

(1)信息增益:

熵:信息量大小的独立,即表示随机变量不确定性的度量。

image.png

假设有n个互不相容的时间a1,a2,a3,...,an,他们中有且仅有一个发生,则其平均的信息量(熵)可以如下度量:


image.png
image.png

熵越大,随机变量的不确定性越大,从定义可验证。


image.png
image.png

设有随机变量(X,Y), 其联合概率分布为


image.png

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。 随机变量X给定的条件下随机变量Y的条件熵(conditionalentropy) H(Y|X), 定义为X给定条件下Y的条件概率分布的熵对X的数学期望:


image.png

当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵和经验条件熵

信息增益:
特征A对训练数据集D的信息增益g(D,A), 定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差, 即

image.png

信息增益表示得知特征X的信息而使得类Y 的信息的不确定性减少的程度
一般地,熵H(Y)与条件熵H(Y|X)之差称为互信息
决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

信息增益的算法

image.png

(2)信息增益比

特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比:


image.png

以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题,使用信息增益比可以对这一问题进行校正

2、决策树的生成

(1)ID3算法

ID3算法的核心:是在决策树各个结点上应用信息增益准则选择特征, 递归地构建决策树。
** 具体方法是:** 从根结点(root node) 开始,对结点计算所有可能的特征的信息增益, 选择信息增益最大的特征作为结点的特征, 由该特征的不同取值建立子结点; 再对子结点递归地调用以上方法, 构建决策树; 直到所有特征的信息增益均很小或没有特征可以选择为止。 最后得到一个决策树。

image.png

基本思想:以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性,亦即能使熵值变为最小的属性,以构造一颗熵值下降最快的决策树,到叶子节点处的熵值为0,此时每个叶子节点对应的实例集中的实例属于同一类。

(2)C4.5的生成算法

用信息增益比来选择特征。


image.png

(3)决策树的枝剪

决策树生成算法递归地产生决策树, 直到不能继续下去为止。 但这种操作容易造成过拟合现象。

过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类, 从而构建出过于复杂的决策树。 解决这个问题的办法是考虑决策树的复杂度, 对已生成的决策树进行简化 。

在决策树学习中将已生成的树进行简化的过程称为剪枝(pruning) 。 具体地, 剪枝从已生成的树上裁掉一些子树或叶结点, 并将其根结点或父结点作为新的叶结点, 从而简化分类树模型。

决策树学习的剪枝算法:

image.png

image.png

(4)CART算法

CART算法由两部分组成:
  • 决策树生成
  • 决策树剪枝
    回归树(目标变量是连续的):平方误差最小化
    分类树(目标变量是类别的):Gini Index

CART与ID3不同
二元划分:二叉树不易产生数据碎片,精度往往也会高于多叉树
CART中选择变量的不纯性独立:
分类目标:Gini指标,Towing、orderTowing
连续目标:最小平方残差、最小绝对残差
剪枝:用预剪枝或后剪枝对训练集生长的树进行剪枝
树的建立:
如果目标变量是标称的,并且是具有两个以上类别,则CART可能考虑将目标类别合并成两个超类别(双化);
如果目标变量是连续的,则CART算法找出一组基于树的回归方程来预测目标变量

CART的生成:
1、回归树的生成
image.png

如何对输入空间进行划分?

image.png

最小二乘回归树生成算法

image.png

2、分类树的生成

基尼指数:

image.png

CART生成算法

image.png

CART剪枝

两步组成:

  • 从生成算法产生的决策树T0底端开始不断剪枝,直到T0的根结点,形成一个子树序列{T0,T1...Tn}
  • 通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优子树
1、剪枝,形成一个子树序列
image.png
2、在剪枝得到的子树序列{T0,T1...Tn}中通过交叉验证选取最优子树Ta.

利用独立的验证数据集,测试子树序列中各子树的平方误差或基尼指数,最小的决策树就是最优决策树。

CART剪枝算法:
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,968评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,682评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,254评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,074评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,964评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,055评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,484评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,170评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,433评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,512评论 2 308
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,296评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,184评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,545评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,150评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,437评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,630评论 2 335

推荐阅读更多精彩内容