决策树介绍
决策树(decision tree) 决策树: 是一种基本的分类和回归方法。它是基于实例特征对实例进行分类的过程,我们可以认为决策树就是很多if-then的规则集合。 优点:1) 训练生成的模型可读性强,我们可以很直观的看出生成模型的构成已经工作方式,因为模型就是由数据属性和类别构成一棵树。 2) 由于是一棵树,所以它的预测分类速度快,想想一棵树能有多大的深度。如果是一颗二叉树即使有N个数据,深度也只有logN。 原则: 根据损失函数最小化的原则建立决策树模型(其实大部分模型都是这个原则) 步骤:1) 特征选择(不同的算法,选择不一样,比如CART就是随机选择m个特征) 2) 决策树的生成(就是通过数据的属性进行不断的分裂,直到叶子节点为止) 现在目前主要的决策树算法: ID3,C4.5,CART,RandomForest ..... 信息熵: (有关信息熵的介绍在吴军的著作《数学之美》有着非常好的介绍,强烈介绍) 说到决策树算法,这个是不得不提的。因为在构建决策树的时候,节点选择的属性是依据信息熵来确定的,就是根据信息熵来确定选择哪个属性用于当前数据集的分类。 ”信息熵“是香农提出来的。我们知道信息是有用的,但是如何来定量描述这个信息量的大小呢。而“信息熵”就是为了解决这个问题而提出来的,用来量化信息的作用。 一条信息的信息量是和它的不确定性有着直接关系的