决策树基础介绍

一。介绍

决策树是一种分类算法。它的算法思想是：根据单一特征对类别的重要性，将特征进行“排序”；然后分类的时候，用这些“排序”的特征，高效的分类。

二。算法步骤

1，特征选择

首先，对于特征选择下面介绍三种最普通的方法，它们有许多共同之处，差别在于对某一特征重要性的度量不一样。

前两者的度量跟熵有非常密切的关系，那么什么是熵呢？——熵是对不确定性的度量。对于一件事情，如果它是确定性事件，则熵为0；如果对于这件事情，每种可能出现的概率相同，则熵达到最大。具体的公式见上面。

计算技巧：由于要计算的是信息增益最大，在划分前信息总量infobeforeSplit()一定的情况下，我们完全可以直接求划分后信息量最小的特性即可。

1.1 ID3

以信息增益为基础，进行特征选择。其思想是：对于某一个特征，在知道该特征后，根据类别的信息量减少的量，对特征进行排序。

1.2 C4.5

如果某一个特征只含一个纯结点，这样决策树在选择属性时，将偏向于选择该属性，但这肯定是不正确（导致过拟合）的。因此有必要使用一种更好的方法，那就是C4.5中使用的信息增益率。

其考虑了分支数量和尺寸的因素，使用称为内在信息的概念。【1】

内在信息，可简单地理解为表示信息分支所需要的信息量。

实际上可以看出，属性的重要性会随着其内在信息（Intrinsic Information）的增大而减小。信息增益率作为一种补偿（Compensate）措施来解决信息增益所存在的问题，但是它也有可能导致过分补偿，而选择那些内在信息很小的属性，这一点可以尝试：首先，仅考虑那些信息增益超过平均值的属性，其次再比较信息增益。

1.3 CART

【2】

2，剪枝

假如原本有1000个特征，在经过特征选择后，就是1000个特征的排序。但是实际上，后面的很多特征是没什么参考价值的，但是却还会影响分类的结果。所以要使用剪枝，来避免过拟合。

剪枝分为预剪枝和后剪枝。预剪枝就是一边生成决策树一边将没用的枝剪掉；后剪枝是生成一整颗完整数之后再剪枝。

前者好处是效率高，坏处是没能从全局的角度来剪枝，容易导致剪枝过度；（该剪枝方法尽管不是统计有效的，但是在实践中有效。【2】）

后者的好处是从全局最优的思路下进行剪枝，坏处是效率低、数据量少时易过拟合。

2.1 预剪枝

在构造决策树的同时进行剪枝。所有决策树的构建方法，都是在无法进一步降低熵的情况下才会停止创建分支的过程，为了避免过拟合，可以设定一个阈值，熵减小的数量小于这个阈值，即使还可以继续降低熵，也停止继续创建分支。但是这种方法实际中的效果并不好。【3】

2.2 后剪枝

REP的步骤：

1，从底到顶，试着删除某一个节点下的子树，给该节点最大概率的分类；2，如果删除后没有降低总体的准确率，则删除该节点的子树。3，然后往树的跟节点方向继续删除，直到都不能删除。

其它如Minimum Error Pruning(MEP)，Critical Value Pruning(CVP)，Optimal Pruning(OPP)，Cost-Sensitive Decision Tree Pruning(CSDTP)、PEP等方法。【2】反正我没看，具体要用再看。

3，分类预测

通过上面的两步，已经确定了最终用于分类的决策树。或者你还在郁闷，有了这样的一颗树，又怎么进行分类呢？？

实际上，这棵树从根节点到叶子的每一根树枝都有一个概率，然后不断地往叶子方向计算其概率，就可以得到每个叶子下的概率，而叶子对应的就是类别。

三。优缺点

优点：这个算法总的来说，还是基于一定的统计学意义，结合信息量的知识（当然啦，像贝叶斯等其他分类算法也都有这两点，而且也很偏重这两点）进行分类。这类算法不涉及迭代优化等，所以计算复杂度不高，效率快。

这个算法其实也是有一个致命的缺点：只能对离散的特征进行处理，对连续特征效果不好（虽然连续的特征也能转变为离散的特征，但是决策树受这些处理的影响很大，分类效果就差了），此外，对于特征中离散值的个数也有一定的限制（其实主要是个数多了，每个值对应的数据量就少了），容易出现纯节点，影响特征选择的效果，最终影响分类的结果。

四。参考文章：

【1】http://blog.csdn.net/cyningsun/article/details/8735169

【2】数据挖掘十大经典算法 https://wizardforcel.gitbooks.io/dm-algo-top10/content/cart.html

【3】http://www.jianshu.com/p/794d08199e5e

最后编辑于：2017.12.06 22:44:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342