CART算法
- CART算法
区别于ID3算法的信息增益和C4.5算法的信息增益率,CART算法在分支处理中分支属性的度量指标是Gini指标,基尼指数越小,不确定程度越小,区分力越大。定义如下:
Gini(Si)=1−i=1∑mpj2
pj=∣S∣∣Cj∣
Gini(S)=SS1Gini(S1)+SS2Gini(S2)+...SSiGini(Si)
其中,Si是属性S的i种取值结果,即i种分支属性,Cj是频数,pj表示第i种分支属性的j种分类结果(j=1,2,3,...,m)的概率。
- 实例模型:
上述哺乳动物分类模型中,假设选择会飞这一属性,i=1,2表示两种分支属性:会飞与不会飞,j=1,2表示各分支属性中两种分类结果:是哺乳动物,不是哺乳动物。
- CART算法Gini指数的计算:
分支属性取值结果即为 S1是会飞,S2不会飞,通过前面ID3算法博客表中的是否哺乳动物的数据计数,代入公式计算得:
Gini(会飞)=∣S∣∣S1∣Gini(S1)+∣S∣∣S2∣Gini(S2)=∣14∣∣11∣×[1−∣11∣∣7∣2−∣11∣∣4∣2]+∣14∣∣3∣×[1−∣3∣∣1∣2−∣3∣∣2∣2]=0.4589
- 同样的方法,其余三种属性的Gini指标也可计算出。