前面提到了信息熵,公式为:。本篇文章我们介绍信息增益。
我们先记住很抽象的一句话,属性划分样本所获得的信息增益。
如何理解呢?
我如何挑选出想要的瓜,如何挑选出好瓜和坏瓜,瓜的属性是不是可以给我带来帮助。
那么,属性划分样本所获得的信息增益,这一句话,就是,属性所带来的帮助。
所以信息增益=帮助。
如何量化信息增益呢?信息增益的公式为:。
其中,即为信息熵,后面的也是信息熵。它们有什么区别呢?
中的v代表单个属性中的某个类别。比如说色泽是瓜的某个属性,色泽的类别就是,青绿色、浅白色、乌黑色。所以就代表将各个类别的信息熵进行相加。
对于上面的数据集,和分别是多少呢?
首先,我们计算。是针对整个数据集的,整个数据集好瓜有8个,坏瓜有9个。
所以将好瓜,坏瓜,坏瓜带入公式:中,可得0.998。
然后,要计算,需要分为两步:1.先计算,2.再加起来。
如何计算呢?我们先分析一下,式中的v代表单个属性中的某个类别,那么就代表单个属性中某个类别的信息熵。
比如色泽这个属性,有三个类别。那么,色泽中的每个类别都对应一个信息熵。青绿色的信息熵,如何计算呢?
青绿色有6个样本,分别是:1,4,6,10,13,17。这6个样本中,好瓜有3个,分别是:1,4,6,坏瓜有3个,分别是:10,13,17。
对于青绿色这个类别,好瓜的概率为:,坏瓜的概率为:。
所以
同理,对于色泽为乌黑和浅白,,。
所以。
我们注意到,信息增益的公式为:,在的前面还有个系数,这个系数是什么意思呢?
对于青绿色这个类别来说,一共有6个样本,而数据集的样本总数为17,所以前面的系数为:。
同理,乌黑和浅白前面的系数分别为:和。
所以,色泽这个属性的信息增益为:。
我们会挑选一个信息增益最大的属性,然后将它选为划分属性。
为什么要挑选信息增益最大的属性呢?
我们回想一下,信息增益是不是等于帮助?
肯定要选一个帮助最大的属性,来辅助我们做决策,这里的决策就是挑选西瓜。