决策树
决策树是一种分类和回归方法
优点:模型可读性,分类速度快
过程:特征选择、决策树的生成、决策树的剪枝
损失函数:正则化的极大似然函数
特征选择:多个特征时,如何选择某个特征作为判断的依据
1、信息增益:
熵定义:
熵越大,随机变量的不确定性越大。
条件熵:
已知随机变量X的条件下随机变量Y的不确定性。
信息增益 = 熵 - 条件熵(也就是互信息)
表示由于特征A而使得对数据集D进行分类的不确定性减少程度。
如根节点的熵最大,下一个特征如果和得到正确的分类结果,那么下一个特征的条件熵就是0,信息增益最大,所以 这个特征比较好。
问题:存在偏向于选择取值较多的特征的问题,所以可以使用信息增益比,信息增益与训练集D在特征A下的熵
决策树的生成:
1、多个特征时,通过信息增益的值挨个选择特征,最后生成树结构
2、ID3通过信息增益,C4.5通过信息增益比
决策树的剪枝:
防止出现过拟合情况,删除某些子节点或者叶节点
通过最小化损失函数来做剪枝,其中加上了类似于正则项的东西
来源:CSDN
作者:Jeu
链接:https://blog.csdn.net/cuipanguo/article/details/103865061