数据挖掘复习笔记（三）

分类算法

将决策树之前，首先提一下分类问题。在机器学习中，预测问题是一类很重要的问题。所谓预测，就是根据一些特征的取值，去推断它可能的标记。例如，根据一家公司的经营情况，财务数据，资本实力等特征，去预测这家公司是否会在贷款后违约，以此帮助银行作出相应的决策。

在预测问题中，如果标记是连续值，那么该问题是一个回归问题；如果标记是离散值，那该问题是分类问题；如果标记为空值，那就可能是一个聚类问题。此外，根据有无标记，又可以分为监督学习（有标记）和无监督学习（无标记）。

所谓分类，就是利用训练数据集通过一定的算法模型而得到分类规则，也就是得到一个 $y=f(x)$ ，其中 $x$ 是一个样本的特征向量，也就是各个特征的取值。 $y$ 则是输出的结果，考虑到这是分类问题，所以 $y$ 一般取成离散值。而 $f$ ，就是我们的想要得到的分类规则。

常见的分类算法有决策树算法、贝叶斯&朴素贝叶斯、支持向量机、逻辑回归、神经网络等等。本篇文章我们对决策树进行介绍。

决策树的构建

这是一个基本的决策树模型，是已经求解出的规则。当我们拿出一个新的西瓜，想要判断它是不是好瓜时，我们就需要从上往下去进行判断。它的纹理怎么样？如果纹理模糊，我们就推测他是一个坏瓜；如果纹理稍微模糊一些，我们再去看看触感；如果纹理很清晰，我们就去看看根蒂怎么样。一步步往下走，我们就可以得到最终的预测结果。

所以问题来了，这棵树是怎么构造出来的？为什么要先看它的纹理，为什么纹理清晰后要看根蒂，纹理稍糊要看触感而纹理模糊就直接判断是坏瓜呢？

这就涉及到决策树学习的关键问题，如何选择划分枝干的最优属性。

我们希望划分后，会有怎样的效果呢？显然，我们希望在不断地划分过程中，可以使得每一个分支节点所包含的样本尽可能属于同一类别，节点的纯度越来越高。

例如上面的决策树，倘若我们从样本数据中发现，所有触感硬滑的都是好瓜，所有触感软滑的都是坏瓜，那我们何必把纹理当作第一个判断属性呢？直接判断触感就可以区分出好瓜坏瓜了。

因此，我们可以认为，选择划分属性的一个重要标准，就是它可以尽可能地使相应分出去的节点所包含的样本，具有一样的类别，具有更高的纯度。

那如何来衡量这种纯度呢？

我们使用熵，来衡量这种纯度。

信息熵

信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2,3,...|y|)$ ，则 $D$ 的信息熵定义为
$Ent(D)=-\sum_{k=1}^{|y|}p_klog_2(p_k)$
其中 $|y|$ 是标记的取值个数。同时我们约定， $p=0$ 时， $log_2p=0$ 。

此时，当某一个 $p_i=1$ ，而其他的 $p_j=0,j=1,2,..,|y|且j \ne i$ 时，该样本集合的纯度最高（只存在一种标记）而熵 $Ent(D) =0$ 达到最小。当所有的 $p_i=\frac{1}{|y|}$ 时，样本集合的纯度最低（此时等比例的存在所有标记）而熵 $Ent(D)=log_2|y|$ 达到最大。

由上面的例子我们可以知道，当样本集合的熵越大，说明样本集合纯度越低；熵越小，其纯度越高。当我们推广到一棵树上，我们有理由认为，如果我们每一步都选择使系统的熵降低最多的属性，相应的叶子节点的纯度会更高，我们也就能更快而准确的作出预测。

于是，我们引入了信息增益的概念。

信息增益和属性选择

假定离散属性 $a$ 有 $V$ 个不同的取值 $\{a^1,a^2,...,a^V\}$ ，如果使用 $a$ 这一属性对样本集 $D$ 进行划分，则会产生 $V$ 个分支节点。其中第 $v$ 个节点包含了 $D$ 中所有属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ 。我们可以根据上面的公式，计算出 $D^v$ 的信息熵 $Ent(D^v)$ 。

考虑到每一个分支节点所包含的样本数目不同，给每个分支节点赋予权重 $\frac{|D^v|}{|D|}$ ， $|D|$ 表示集合 $D$ 中的样本数目。这样，样本数越多的分支节点的影响力越大，我们便可以计算出根据属性 $a$ 对样本集 $D$ 进行划分后所得到的信息增益
$Gain(D,a)=Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|} Ent(D^v)$
即信息熵的减少量。而 $\sum_{v=1}^V \frac{|D^v|}{|D|} Ent(D^v)$ 就是集合 $D$ 根据属性 $a$ 划分后，相应的子树的信息熵。

如上文所述，我们需要选择的用于划分的属性，就是使得信息熵减小最多的属性，这样子叶结点的整体纯度会更高。因此，我们需要计算出所有属性的信息增益，选择信息增益最大的属性作为划分依据。

基本算法

接下来简单描述一下构造决策树的基本算法（贪心）。

Step 1：所有的数据都在根节点，属性都是种类字段（连续属性离散化）。

Step 2：计算所有属性的信息增益，选择信息增益最大的进行划分，生成相应的叶子节点

Step 3：在达到终止条件之前，不断重复第二步，对叶子节点进行划分

那算法的终止条件是什么呢？

一般而言，如果一个叶子节点包含的所有样本都属于同一类，则不需要继续划分了。如果当前的数据集没有任何属性可用于划分，但依然不完全纯净，那按照少数服从多数的原则设定其标记值，并停止划分。如果分到某个节点时，某个值（例如纯度）达到了给定的阈值，则停止划分，设定标记值。

举个例子

对于上述数据集，我们首先计算总体样本的熵 $Ent(D)$ 。可以发现， $|y|=17,p_1=\frac{8}{17},p_2=\frac{9}{17}$ ，所以 $Ent(D)=-p_1*log_2 p_1-p_2*log_2p2=0.998$

下面我们来计算一下，使用“色泽”作为划分属性的信息增益。色泽这一属性有三个取值，所以相应的集合被划分为 $D^1,D^2,D^3$ 。 $D^1$ 代表色泽为青绿，包含六个样例 $\{1,4,6,10,13,17\}$ 。其中正例有3个，负例有3个，所以其信息熵
$Ent(D^1)=-( \frac{3}{6}log_2\frac{3}{6}+\frac{3}{6}log_2\frac{3}{6})=1.000$

$D^2$ 代表色泽为乌黑，包含六个样例 $\{2,3,7,8,9,15\}$ 。其中正例有4个，负例有2个，所以其信息熵 $Ent(D^2)=-(\frac{4}{6}log_2\frac{4}{6}+\frac{2}{6}log_2\frac{2}{6})=0.918$

$D^3$ 代表色泽为浅白，包含五个样例 $\{5,11,12,14,16\}$ 。其中正例有1个，负例有4个，所以其信息熵 $Ent(D^3)=-(\frac{1}{5}log_2\frac{1}{5}+\frac{4}{5}log_2\frac{4}{5}) =0.722$

所以其信息增益 $\begin{align} Gain(D,色泽)&=Ent(D)-\sum_{v=1}^V \frac{|D^v|}{|D|} Ent(D^v)\\ & = 0.988-(\frac{6}{17}*1.000+\frac{6}{17}*0.918+\frac{5}{17}*0.722) \\ & =0.109 \end{align}$

同理可得， $Gain(D,纹理)=0.381$ , $Gain(D,根蒂)=0.143$ , $Gain(D,触感)=0.006$ , $Gain(D,敲声)=0.141$ , $Gain(D,脐部)=0.289$ 。显然，“纹理”的信息增益最大，所以将纹理作为第一个用于划分的属性。

接着，对于纹理分出的三个叶结点继续进行划分，选择信息增益最大的属性作为划分依据，不断迭代，最终得到一棵完整的决策树。

其他选择属性的依据

信息增益固然适合作为选择属性的依据，但是倘若我们把每一个样本的编号也看作一个属性，会发现它的信息增益最大。因为这样就划分出了十七个叶结点，且每个叶结点都是具有100%纯度的。显然，即使我们训练出了这样的树，对于一个新的样本，我们是难以作出有效的预测的。

可以发现，信息增益这一指标，更加偏爱取值较多的属性，有时候很难得到一棵泛化能力较强的决策树。

因此，我们可以引入其他指标作为选择属性的依据，如信息增益率、基尼系数等等。此处仅作为一个引入，有兴趣的自行查阅。

剪枝

剪枝也是一个构造决策树过程中不可缺少的一个步骤，分为预剪枝和后剪枝。剪枝的目的是提高决策树的泛化能力，这里暂时不做详细介绍，以后有机会再谈。

优缺点

最后提一下决策树的优缺点。

优点：

可以生成可理解的规则，具有较强的解释性
计算量相对而言不是很大
可以处理连续和种类字段，对数据要求不高
决策树可以清晰的显示哪些字段比较重要

缺点：

对连续性的字段较难预测
对于有时间顺序的数据，需要做很多预处理
当类别太多时，错误可能增加的比较快
一次只能根据一个字段分类

最后编辑于：2020.11.22 10:03:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,340评论 5赞 467
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,762评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,329评论 0赞 329
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,678评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,583评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,995评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,493评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,145评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,293评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,250评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,267评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,973评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,556评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,648评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,873评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,257评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,809评论 2赞 339