决策树

决策树

标签: 统计学习


目录

[TOC]

模型

决策树既可以看成一个if-then规则的集合,也表示给定特征条件下类的条件概率分布,因此决策树学习可以看成是由训练数据集估计条件概率模型。
  决策树学习的损失函数通常是正则化的极大似然函数,学习策略以损失函数为目标函数的最小化
  决策树学习算法包含特征选择,决策树的生成,决策树的剪枝过程。深浅不同的决策树对应不同复杂度的概率模型。
  决策树的生成只考虑局部最优,剪枝则考虑全局最优。常用算法有ID3,C4.5,CART


特征选择

通常特征选择的准则是信息增益或信息增益比

信息增益

熵(entropy)表示随机变量不确定性的度量。假设X是一个离散随机变量,概率分为为



  则随机变量X的熵定义为



  条件熵定义为

  当熵与条件熵由数据估计(如极大似然估计)得到时,分别称为经验熵(empirical entropy)与经验条件熵(empirical conditional entropy)


信息增益表示得知特征X的信息,而使得类Y的信息的不确定性减少的程度。特征A对数据集D的信息增益g(D,A),定义为



  熵与条件熵之差称为互信息(mutual information)。决策树学习中的信息增益 = 数据集中类与特征的互信息
  信息增益依赖于特征;信息增益大的特征具有更强的分类能力
  计算数据集D的经验熵H(D)



  计算特征A对数据集D的经验条件熵H(D|A)

信息增益比

决策树生成

ID3算法

核心是在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树,直到所有特征的信息增益均很小或无特征可选为止
  ID3算法相当于用极大似然法进行概率模型的选择(该算法只有树的生成,容易过拟合)

C4.5算法

相比ID3算法,使用信息增益比来选择特征

剪枝

可以通过极小化损失函数来实现。对于树T,叶结点个数为|T|,t为叶结点,该叶结点有Nt个样本点,其中k类样本点有Ntk个,Ht(T)为叶结点t上的经验熵,a≥0为参数,则决策树学习的损失函数可以定义为



  其中经验熵为



  将损失函数第一项记为

  这时有



  损失函数解释。第一项:所有叶结点的经验熵之和,同时用各结点上的样本点数做权重,表明分到该叶结点的样本点越多,越值得重视;该项表明了模型与训练数据的拟合程度。第二项:|T|为叶结点数,表示模型复杂度,a用来控制模型复杂度的选择。该损失函数的极小化等价于正则化的极大似然估计
  决策树生成:只考虑通过提高信息增益(或信息增益比)来对数据拟合,属于局部最优
  决策树剪枝:通过优化损失函数,考虑模型复杂度。属于全局最优

CART算法

CART生成

  • 回归树
      回归树模型可以表示为

      cm为输入单元Rm上的固定输出值
      cm的估计可以采用均值

      对于切分变量xj与切分点s,定义两个区域,

      然后,求解

      即,使平方误差最小的点为最优切分点。递归地进行,即可得到一颗回归树,又称为最小二乘回归树

  • 分类树
      定义基尼指数为(总共有K类,pk为样本点属于第k类的概率)



      对于给定的样本集合D,其基尼指数为



      定义特征A条件下,集合D的基尼指数为

      Gini(D,A)表示经过条件A=a分割之后,集合D的不确定性,与熵类似

CART剪枝

  • 剪枝,形成子树序列
  • 利用交叉验证法选择最优子树
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,817评论 0 25
  • 这里开始机器学习的笔记记录。今天的这篇是一个分类方法--决策树。 决策树优点:计算复杂度不高,输出结果易于理解,对...
    七号萝卜阅读 6,419评论 0 18
  • 积跬步以致千里,积怠惰以致深渊 注:本篇文章在整理时主要参考了 周志华 的《机器学习》。 主要内容 决策树是机器学...
    指尖上的魔术师阅读 1,363评论 0 5
  • 作者网站:http://www.cqbanxi.com[http://www.cqbanxi.com] 阐述一下:...
    小猎豹_wubangxin阅读 7,677评论 10 15
  • 没有想要保护的东西为什么要战斗,安静的躺下,死去,为什么还要挣扎。闭上眼睛等待黑暗。 蓝色的鱼在天上飞,地上会有鹿...
    阿诗丹顿阅读 171评论 0 0