熵定义:随机变量的概率分布对应的 **信息量的平均值 ** 就叫做随机变量的熵。
我们暂时把信息看做在学习x的值时候的”惊讶程度”
比如,苹果一定落地,信息量就很小。苹果落到某个盒子,熵也就大了,信息量比较大,不确定性也比较大了。
熵越大随机变量的不确定性就越大。
id3算法的核心就是从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征取不同的值建立子节点;再对子节点递归调用以上方法。直到
所有特征的信息增益都很小停止调用。
熵定义:随机变量的概率分布对应的 **信息量的平均值 ** 就叫做随机变量的熵。
我们暂时把信息看做在学习x的值时候的”惊讶程度”
比如,苹果一定落地,信息量就很小。苹果落到某个盒子,熵也就大了,信息量比较大,不确定性也比较大了。
熵越大随机变量的不确定性就越大。
id3算法的核心就是从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征取不同的值建立子节点;再对子节点递归调用以上方法。直到
所有特征的信息增益都很小停止调用。
来源:https://www.cnblogs.com/heracles-Mercury/p/11993503.html