机器学习实战:决策树

我们两清 提交于 2019-11-30 19:01:04

  决策树(decision tree)是一种基本的分类与回归方法。

  决策树的构建通常可以概括为3个步骤:特征选择、决策树的生成和决策树的修剪。

1、特征选择

  特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率,如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的标准是信息增益(information gain)或信息增益比。

  特征选择就是决定用哪个特征来划分特征空间。

  熵定义为信息的期望值。在信息论与概率统计中,熵是表示随机变量不确定性的度量。如果待分类的事物可能划分在多个分类之中,则符号xi的信息定义为 :

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!