决策树中信息增益值的计算

删除回忆录丶 提交于 2019-12-12 10:30:07

一、 确定数据

二、正例(好瓜)占8/17,反例(坏瓜)占9/17,则根结点的信息熵为:

三、计算当前属性集合{色泽,根蒂,敲声,纹理,脐带,触感}中每个属性的信息增益。

色泽有三个可能的取值:青绿、乌黑、浅白

D1{色泽=青绿}={1,4,6,10,13,17},正例3/6,反例3/6

D2{色泽=乌黑}={2,3,7,8,9,15},正例4/6,反例2/6

D3{色泽=浅白}={5,11,12,14,16},正例1/5,反例4/5

这三个分支结点的信息熵为:

四、由此我们可以计算出色泽属性的信息增益是(青绿,乌黑, 浅白三个分类类别分别乘自己对应的信息熵):

 

五、同理,按照一样的方法我们可以求出其他属性的信息增益,分别如下:

六、知道了纹理是对最后的类别影响最大的信息熵

于是我们可以选择根蒂、脐部、触感这3个特征属性中的任何一个(因为他们的信息增益值相等且最大),其他两个结点同理。这样就可以得到新一层的结点。通过递归就能构建出整个决策树了。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!