一、 确定数据
二、正例(好瓜)占8/17,反例(坏瓜)占9/17,则根结点的信息熵为:
三、计算当前属性集合{色泽,根蒂,敲声,纹理,脐带,触感}中每个属性的信息增益。
色泽有三个可能的取值:青绿、乌黑、浅白
D1{色泽=青绿}={1,4,6,10,13,17},正例3/6,反例3/6
D2{色泽=乌黑}={2,3,7,8,9,15},正例4/6,反例2/6
D3{色泽=浅白}={5,11,12,14,16},正例1/5,反例4/5
这三个分支结点的信息熵为:
四、由此我们可以计算出色泽属性的信息增益是(青绿,乌黑, 浅白三个分类类别分别乘自己对应的信息熵):
五、同理,按照一样的方法我们可以求出其他属性的信息增益,分别如下:
六、知道了纹理是对最后的类别影响最大的信息熵
于是我们可以选择根蒂、脐部、触感这3个特征属性中的任何一个(因为他们的信息增益值相等且最大),其他两个结点同理。这样就可以得到新一层的结点。通过递归就能构建出整个决策树了。
来源:CSDN
作者:apple-平家物语
链接:https://blog.csdn.net/weixin_43910988/article/details/103485002