树模型(分类或回归)
决策树
树的基本结构
示例
定义
决策树在分类问题中,表示基于特征对实例空间进行划分的方法。可以视为if-then规则的集合,也可以认为是定义在特征空间和类空间上的条件概率分布。
步骤
- 特征选择
决定选取哪些特征来划分特征空间。
先引入信息论概念:信息增益
熵、条件概率、信息增益
对信息增益进行特征选择
选取信息增益最大的特征
特征的信息增益算法 - 计算数据集D的熵
- 计算特征的条件熵
- 计算特征的信息增益
!!!这样的算法特性倾向于选择特征离散量较多的特征,但实际往往是由于特征很多而把y分的很细,因而就有了信息增益比修正算法
信息增益比修正算法
- 计算数据集D关于特征的熵
- 计算特征的信息增益比
- 决策树生成
ID3
基于信息增益特征选择
C4.5
C4.5算法即将ID3中特征选择算法由信息增益替换为信息增益比
过拟合问题
往往树的规模越大,在模型训练中的拟合效果虽然会更好,但模型的泛化能力会下降,因此需要对决策树进行剪枝。
- 决策树剪枝
极小化决策树整体的损失函数或代价函数
函数定义
混淆矩阵
分类回归树CIRT
假设决策树是二叉树形式,一次特征只能将数据集分为两个类别。
决策树优点
- 不需要任何领域知识或参数假设
- 适合高维数据
- 简单易于理解
- 短时间内处理大量数据,得到可行且效果较好的结果
决策树缺点
- 对于各类别样本数量不一致的数据,信息增益偏向于那些具有更多数值的特征
- 容易过拟合,特别是在特征多的情况下,易引入噪声特征
- 忽略属性间的相关性
- 不支持在线学习
来源:CSDN
作者:amorfatilily
链接:https://blog.csdn.net/weixin_41741485/article/details/104627505