统计学习方法学习1.0

你离开我真会死。 提交于 2020-01-07 14:06:36

决策树

决策树是一种分类和回归方法

优点:模型可读性,分类速度快

过程:特征选择、决策树的生成、决策树的剪枝

损失函数:正则化的极大似然函数

特征选择:多个特征时,如何选择某个特征作为判断的依据

        1、信息增益:

              熵定义:

               熵越大,随机变量的不确定性越大。

               条件熵:

                已知随机变量X的条件下随机变量Y的不确定性。

                信息增益 = 熵 - 条件熵(也就是互信息)

                 表示由于特征A而使得对数据集D进行分类的不确定性减少程度。

                  如根节点的熵最大,下一个特征如果和得到正确的分类结果,那么下一个特征的条件熵就是0,信息增益最大,所以                      这个特征比较好。

                 问题:存在偏向于选择取值较多的特征的问题,所以可以使用信息增益比,信息增益与训练集D在特征A下的熵

  决策树的生成:

                 1、多个特征时,通过信息增益的值挨个选择特征,最后生成树结构

                  2、ID3通过信息增益,C4.5通过信息增益比

  决策树的剪枝:

                  防止出现过拟合情况,删除某些子节点或者叶节点

                 通过最小化损失函数来做剪枝,其中加上了类似于正则项的东西

                  

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!