Python快速实战机器学习(7) 决策树
点击上方“蓝字”带你去看小星星 引言 近日,南大周志华等人首次提出使用 深度森林 方法解决多标签学习任务。该方法在 9 个基准数据集、6 个多标签度量指标上实现了最优性能。 而深度森林是基于 决策树 构建的深度集成模型,因此对于想了解深度森林以及对这个方法本身感兴趣的同学需要对决策树有一个了解。 在这一讲中,你将会: 1、认识决策树; 2、大体了解决策树是如何训练的; 3、学会sklearn中决策树使用方法。 什么是决策树 如果我们在意模型的 可解释性 ,那么决策树(decision tree)分类器绝对是上佳的选择。如同名字的字面意思,我们可以把决策树理解为基于一系列问题对数据做出的分割选择。 举一个简单的例子,我们使用决策树决定去不去见相亲对象 这就是决策树,每一层我们都提出一个问题,根据问题的回答来走向不同的子树,最终到达叶子节点时,做出决策(去还是不去)。 再比如我们可以用一个决策树来判断一个西瓜好瓜还是坏瓜: 在上面的两个例子中,方框子树为 特征 ,比如是“美不美”或者“触感”; 而分支的条件为特征下的 数据 ,比如西瓜例子中触感:硬滑或者软粘。 虽然上图中做出的每个决策都是根据离散变量,但也可以用于连续型变量,比如,对于Iris中sepal width这一取值为实数的特征,我们可以问“sepal width是否大于2.8cm 当一颗决策树的节点以及判断条件都被确定的时候