[机器学习]决策树(decision tree)--4.信息增益

前面提到了信息熵,公式为:Ent(D) = -\sum_{1}^k p_{k}\log_x p_{k}。本篇文章我们介绍信息增益。

我们先记住很抽象的一句话,属性划分样本所获得的信息增益。

如何理解呢?

我如何挑选出想要的瓜,如何挑选出好瓜和坏瓜,瓜的属性是不是可以给我带来帮助。

那么,属性划分样本所获得的信息增益,这一句话,就是,属性所带来的帮助。

所以信息增益=帮助。

如何量化信息增益呢?信息增益的公式为:Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{\vert D^v  \vert }{\vert D \vert }Ent(D^v )

其中,Ent(D)即为信息熵,后面的Ent(D^v ) 也是信息熵。它们有什么区别呢?

Ent(D^v ) 中的v代表单个属性中的某个类别。比如说色泽是瓜的某个属性,色泽的类别就是,青绿色、浅白色、乌黑色。所以\sum_{v=1}^V Ent(D^v ) 就代表将各个类别的信息熵进行相加。

西瓜数据集

对于上面的数据集,Ent(D)\sum_{v=1}^V Ent(D^v ) 分别是多少呢?

首先,我们计算Ent(D)Ent(D)是针对整个数据集的,整个数据集好瓜有8个,坏瓜有9个。

所以将好瓜p_{0} =\frac{8}{17} ,坏瓜p_{2} =\frac{9}{17} ,坏瓜带入公式:Ent(D) = -\sum_{1}^k p_{k}\log_x p_{k}中,可得0.998。

然后,要计算\sum_{v=1}^V Ent(D^v ) ,需要分为两步:1.先计算Ent(D^v ) ,2.再加起来。

如何计算Ent(D^v ) 呢?我们先分析一下,式中的v代表单个属性中的某个类别,那么Ent(D^v ) 就代表单个属性中某个类别的信息熵。

比如色泽这个属性,有三个类别。那么,色泽中的每个类别都对应一个信息熵。青绿色的信息熵,如何计算呢?

青绿色有6个样本,分别是:1,4,6,10,13,17。这6个样本中,好瓜有3个,分别是:1,4,6,坏瓜有3个,分别是:10,13,17。

对于青绿色这个类别,好瓜的概率为:p_{1}=\frac{3}{6}  ,坏瓜的概率为:p_{2}=\frac{3}{6}

所以Ent(D^1 ) =-(\frac{3}{6} \log_2 \frac{3}{6} + \frac{3}{6} \log_2 \frac{3}{6} ) = 1.0

同理,对于色泽为乌黑和浅白,Ent(D^2 )=0.918Ent(D^3 )=0.722

所以\sum_{v=1}^V Ent(D^v ) =Ent(D^1 )+Ent(D^2 )+Ent(D^3 )

我们注意到,信息增益的公式为:Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{\vert D^v  \vert }{\vert D \vert }Ent(D^v ) ,在Ent(D^v ) 的前面还有个系数,这个系数是什么意思呢?

对于青绿色这个类别来说,一共有6个样本,而数据集的样本总数为17,所以Ent(D^1 ) 前面的系数为:\frac{6}{17}

同理,乌黑和浅白前面的系数分别为:\frac{6}{17} \frac{5}{17}

所以,色泽这个属性的信息增益为:Gain(D,色泽)=Ent(D)-\sum_{v=1}^3 \frac{\vert D^v  \vert }{\vert D \vert }Ent(D^v ) = 0.998 - ( \frac{6}{17} *1.0 +\frac{6}{17} *0.918 + \frac{5}{17} *0.722 ) = 0.109

我们会挑选一个信息增益最大的属性,然后将它选为划分属性。

为什么要挑选信息增益最大的属性呢?

我们回想一下,信息增益是不是等于帮助?

肯定要选一个帮助最大的属性,来辅助我们做决策,这里的决策就是挑选西瓜。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,406评论 5 475
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,976评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,302评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,366评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,372评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,457评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,872评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,521评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,717评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,523评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,590评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,299评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,859评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,883评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,127评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,760评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,290评论 2 342

推荐阅读更多精彩内容