决策树的构建及可视化——帮自己配副隐形眼镜
前文简介 上一篇文章中主要介绍了以下几方面: 决策树的简介 决策树的流程 熵的定义及如何计算熵 信息增益的定义及如何计算信息增益 依据信息增益划分数据集 本文以一个新的数据集(隐形眼镜数据集)为基础实现构建决策树、决策树的保存与加载、利用决策树分类、决策树的可视化,前文的知识不在过多概述,着重介绍这四个方面。 先大致了解一下数据集: 这份数据源至UCI数据库,其共有4个特征分别为 age (年龄)、 prescript (症状)、 astigmatic (闪光)、 tearRate (泪液产生率)以及一个分类标签 class ,该分类包含硬材质、软材质和不应配带三种。 为了方便处理,对样本做以下处理: age:young—>0、pre—>1、presbyopic—>2 prescript:myope—>0、hyper—>1 astigmatic:no—>0、yes—>1 tearRate:reduced—>0、normal—>1 四、决策树的构建 在构造决策树之前,先回顾一下前几个子模块的工作原理:先获取原始数据集,然后基于最优特征划分数据集,当数据集特征大于两个时,第一次划分之后,数据将被向下传递至树的下一个节点,在这个节点上,在此划分数据,此过程是利用递归原理处理数据集。 什么时候划分结束呢?当程序遍历完所有划分数据集的属性,或者每个分支下所有实例分类一致时代表划分数据集结束。