决策树算法(一)
一、决策树算法 1.决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构(if-else)结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 决策时:是一种树形结构,其实每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。 2.决策树的分类原理 1.熵 1.1概念 物理学上,熵 Entropy是“混乱”程度的量度。 系统越有序,熵值越低,系统越无序,熵值越高。 1948年香农提出了信息熵(Entropy)的概念: 信息理论 1.从信息的完整性来说: 当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散熵值越大。 2.从信息有序性来说: 当数据量是一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。 ”信息熵“(information entropy)是度量样本集合纯度最常用的一种指标,用来描述信息的不确定程度。 3.决策树的划分依据——信息增益 3.1 概念 信息增益:以某种特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 信息增益 = entropy(前) - entropy(后) 定义与公式 信息熵的计算: 条件熵的计算: 其中: D^v D*