数据挖掘-决策树
1.什么是决策树: 非叶子结点代表测试的条件。 分支代表测试的结果 2.如何构建决策树: ′1.信息熵(informationentropy):是度量样本集合纯度最常用的一种指标。 2.基尼系数(gini):是度量样本集合不确定性指标。(基尼指数与熵可近似看做是统一概念,都是越大,确定性越差) 基尼指数和信息熵的图像:(当熵和基尼指数为0.5时,即确定某件事的概率为50%,是最不能肯定的事件。如:小明后天再路上捡钱的概率为50%,很不确定。如果概率为30%,代表很可能捡不到钱;如果概率为60%,则代表更可能捡到钱。) 一个小栗子: 1.系统信息熵:(是,否为好瓜的两个属性) 2.每个特征的信息熵:(以色泽为例)(先计算出3 个属性的信息熵,依次为:青绿,乌黑,浅白) 然后,结合3 个属性,计算出特征为色泽的信息熵。 3.信息增益: 信息增益大,代表着熵小,所以确定性较高。 得出决策结果 但是,当我们使用ID编号作为一个特征量的时候 ′得到信息熵: ′信息增益为: 所以需要使用编号作为根节点吗?显然不可能。 (所以说:ID3决策树倾向于选择属性较多的特征,当这个特征不一定是最优的属性特征。同时,ID3决策树只能处理离散的属性,对于连续的属性,需要在 分类前对其进行离散化。) 因此,引入增益率: ′=1/(17)*17*log2(1/(17))=4.08 ′如果一个特征的取值越多