CART算法

佐手、 提交于 2020-01-14 21:56:38

CART算法


  • CART算法
    区别于ID3算法的信息增益和C4.5算法的信息增益率,CART算法在分支处理中分支属性的度量指标是Gini指标,基尼指数越小,不确定程度越小,区分力越大。定义如下:
    Gini(Si)=1i=1mpj2Gini(S_i)=1-\sum_{i=1}^mp_j^2

pj=CjSp_j=\frac{|C_j|}{|S|}

Gini(S)=S1SGini(S1)+S2SGini(S2)+...SiSGini(Si)Gini(S)=\frac{S_1}{S}Gini(S_1)+\frac{S_2}{S}Gini(S_2)+...\frac{S_i}{S}Gini(S_i)

其中,SiS_i是属性SSii种取值结果,即ii种分支属性,CjC_j是频数,pjp_j表示第ii种分支属性的jj种分类结果(j=1,2,3,...,mj=1,2,3,...,m)的概率。

  • 实例模型
    上述哺乳动物分类模型中,假设选择会飞这一属性,i=1,2i=1,2表示两种分支属性:会飞与不会飞,j=1,2j=1,2表示各分支属性中两种分类结果:是哺乳动物,不是哺乳动物。
  • CART算法Gini指数的计算
    分支属性取值结果即为 S1S_1是会飞,S2S_2不会飞,通过前面ID3算法博客表中的是否哺乳动物的数据计数,代入公式计算得:

Gini()=S1SGini(S1)+S2SGini(S2)=1114×[171124112]+314×[1132232]=0.4589 \begin{aligned} Gini(会飞) & =\frac{|S_1|}{|S|}Gini(S_1)+\frac{|S_2|}{|S|}Gini(S_2) \\ & =\frac{|11|}{|14|}\times[1-{\frac{|7|}{|11|}}^2-{\frac{|4|}{|11|}}^2]+\frac{|3|}{|14|}\times[1-{\frac{|1|}{|3|}}^2-{\frac{|2|}{|3|}}^2]\\ & =0.4589 \end{aligned}

  • 同样的方法,其余三种属性的Gini指标也可计算出。
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!