决策树(R语言)
决策树是有监督学习算法中的一种。基于属性做一系列的决策,每次决策要么进入下一级决策,要么生成最终结果。决策树可以作为集成算法中的基分类器,并且有最为广泛的应用。 决策树算法 要想理解决策树的工作原理,首先需要了解决策树的层次结构。决策树由结点与有向边组成,其中,结点分为如下三种: 根结点 :无入边,但有零条或多条出边 内部结点 :有一条入边和多条出边 叶节点 :有一条入边,无出边 每个叶节点都有一个类标号,根节点和内部结点包含属性测试条件,每个根节点和内部结点都对应一次条件判断,用来分开有不同特性的记录。对一条记录进行判断时,从根结点开始,根据判断进入相应分支,只到叶节点,叶节点的类别即为分类结果。比如,根据历史贷款记录预测贷款申请者是否会逾期,是否有房和婚姻状况作为属性,是否逾期作为类标号。历史数据如下: 序号 有房 婚姻状况 是否逾期 1 是 单身 否 2 否 已婚 否 3 否 单身 是 4 是 已婚 否 5 否 离异 是 6 否 已婚 否 7 是 离异 否 8 否 单身 是 9 否 已婚 否 根据历史贷款记录,可构造如下决策树: 当决策树构造好后,对未标记的记录进行分类就非常容易了。如使用以及构造好的决策树,对如下序号8这个人进行预测,可以知道,最终停在了未逾期这个节点。 序号 有房 婚姻状况 是否逾期 8 是 离异 ? Hunt算法 是常用的用来建立决策树的算法