分类练习题1

1.为四个布尔属性A,B,C,D的奇偶函数画一棵完全决策树。可以简化该决策树吗？

Figure 4.1.四个布尔属性奇偶函数的决策树。

不能简化该决策树。

2.考虑下表中二元分类问题的训练样本。

Data set for Exercise 2.

a.计算整个训练样本集的Gini指标值。

1-2*0.5^2=0.5

b.计算属性顾客ID的Gini指标值。

每个客户ID值的基尼为0。因此，客户ID的总体基尼为0。

c.计算属性性别的Gini值。

男性的基尼为1-0.4^2-0.6^2=0.48。女性的基尼也是0.48。因此，总体性别基尼为0.48×0.5+0.48×0.5=0.48。

d.计算使用多路划分属性车型的gini值。

家用车基尼为0.375，跑车为0，豪华车为0.2188。总基尼为0.1625。

e.计算使用多路划分属性衬衣尺码的Gini指标值。

小：1-0.4^2-0.6^2=0.48

中:1-(3/7)^2-(4/7)^2=0.4898

大：1-2*0.5^2=0.5

加大：1-2*0.5^2=0.5

总Gini：0.48*0.25+0.4898*7/20+0.5*0.2+0.5*0.2=0.4914

f.哪个属性更好，性别、车型还是衬衣尺码？

车型，因为它在三个属性中基尼最低。

g.解释为什么属性顾客ID的Gini值最低，但却不能作为属性测试条件。

由于新客户被分配给新客户id，因此该属性没有预测能力。

3.已知二元分类问题的样本集。

Data set for Exercise 3

a.整个训练样本集关于类属性的熵是多少？这个训练实例集合相对于正类的熵是多少？

有4个正号和5个负号。因此，P(+)=4/9，P(-)=5/9。训练实例的熵为−4/9log2(4/9)–5/9log2(5/9)=0.9911。

b.关于这些训练样本，a1和a2的信息增益是多少？

对于属性a1，相应的计数和概率

a1的熵

因此，a1的信息增益为0.9911−0.7616=0.2294。

对于属性a2，相应的计数和概率

a2的熵

因此，a1的信息增益为0.9911− 0.9839 = 0.0072。

c.对于连续属性a3，计算所有可能的划分的信息熵增益。

a3的最佳分割发生在分割点等于2处。

d.根据信息增益，哪个是最佳划分(a1,a2,a3)？

a1.

e.根据分类差错率，哪个是最佳划分（a1,a2)？

对于属性a1：错误率=2/9。

对于属性a2：错误率=4/9。

因此，根据错误率，a1产生最佳分割.

f.根据Gini指标，那个是最佳划分（a1,a2)？

对于属性a1，基尼指标是

对于属性a2，基尼指标是

由于a1的基尼指数较小，它产生了更好的分割。

4.证明：将结点划分为更小的后继结点后，结点熵不再会增加。

证明：设Y={y1，y2，···，Yc}表示c类，X={x1，x2，···，Xk}表示属性X的k属性值。在X上拆分结点之前，熵为：

其中，由全概率公式

P(y_{j})=\sum\nolimits_{i=1}^kP(x_{i} ,y_{j} )

在X上分割后，每个子节点X＝ $x_{i}$ 的熵是：

其中p(yj|xi)是X=xi的例子，属于yj类。

在X上分割后的熵由子节点的加权熵给出：

其中我们使用了概率论中的一个已知事实，即

P(x_{i} ,y_{j} )=P(y_{j} |x_{i} )\times P(x_{i} )

。注意E（Y | X）也被称为Y给定X的条件熵。

为了回答这个问题，我们需要证明E(Y | X)≤E(Y)。我们用方程4.1和4.3计算分裂后和分裂前的熵之差，即E(Y | X)-E(Y)：

为了证明方程4.4是非正的，我们使用对数函数的以下性质：

以

\sum\nolimits_{k=1}^da_{k} =1

为条件。这个性质是一个更一般的关于凸函数（包括对数函数）的定理的特例，称为Jensen不等式。

通过应用Jensen不等式，方程4.4可以有如下界：

因为E(Y|X)-E(Y)≤0，所以在一个属性上分割后熵不会增加。

最后编辑于：2020.03.10 17:57:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,009评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,808评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,891评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,283评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,285评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,409评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,809评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,487评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,680评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,499评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,548评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,268评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,815评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,872评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,102评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,683评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,253评论 2赞 341