机器学习之决策树三-CART原理与代码实现
决策树系列三—CART原理与代码实现 本文系作者原创,转载请注明出处: https://www.cnblogs.com/further-further-further/p/9482885.html ID3,C4.5算法缺点 ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。 在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分, 也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中, 将不再起作用,所以有观点认为这种切分方式过于迅速。 C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。和ID3一样,C4.5算法分类结果存在过拟合。 为了解决过拟合问题,这里介绍一种新的算法CART。 CART(classification and regression tree) CART由特征选择、树的生成及剪枝组成,既可以用于分类也可以用于回归。 分类:如晴天/阴天/雨天、用户性别、邮件是否是垃圾邮件; 回归:预测实数值,如明天的温度、用户的年龄等; CART决策树的生成就是递归地构建二叉决策树的过程,对分类、以及剪枝采用信息增益最大化准则,这里信息增益采用的基尼指数公式, 当然也可以使用ID3的信息熵公式算法。 基尼指数 分类问题中,假设有K个类别,样本点属于第 类的概率为