信息增益 | 易学教程

统计学习方法李航---第5章决策树

阅读更多关于统计学习方法李航---第5章决策树

第5章决策树决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习定义5.1 (决策树) ：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型：内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分到叶结点的类中。图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则可以将决策树看成一个if-then规则的集合，转换成if-then规则的过程：由决策树的根结点到叶结点的每一条路径构建一条规则

特征选择方法之信息增益

阅读更多关于特征选择方法之信息增益

前文提到过，除了开方检验（CHI）以外，信息增益（IG，Information Gain）也是非常有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而怎样量化特征的重要性，就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化，关联性越强，特征得分越高，该特征越应该被保留。在信息增益中，重要性的衡量标准就是看特征可以为分类系统带来多少信息，带来的信息越多，该特征越重要。因此先回顾一下信息论中有关信息量（就是“熵”）的定义。说有这么一个变量X，它可能的取值有n多种，各自是x 1 ，x 2 ，……，x n ，每一种取到的概率各自是P 1 ，P 2 ，……，P n ，那么X的熵就定义为：意思就是一个变量可能的变化越多（反而跟变量详细的取值没有不论什么关系，仅仅和值的种类多少以及发生概率有关），它携带的信息量就越大（因此我一直认为我们的政策法规信息量非常大，由于它变化非常多，基本朝令夕改，笑）。对分类系统来说，类别C是变量，它可能的取值是C 1 ，C 2 ，……，C n ，而每个类别出现的概率是P(C 1 )，P(C 2 )，……，P(C n )，因此n就是类别的总数。此时分类系统的熵就能够表示为：有同学说不好理解呀，这样想就好了，文本分类系统的作用就是输出一个表示文本属于哪个类别的值，而这个值可能是C 1 ，C 2 ，……，C

特征选择方法之信息增益

阅读更多关于特征选择方法之信息增益

特征选择方法之信息增益

阅读更多关于特征选择方法之信息增益

特征选择方法之信息增益

阅读更多关于特征选择方法之信息增益

信息增益(Information Gain)

阅读更多关于信息增益(Information Gain)

当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这时概率分布的信息熵最大，所以称之为“最大熵法”。最大熵法在数学形式上很漂亮，但是实现起来比较复杂，但把它运用于金融领域的诱惑也比较大，比如说决定股票涨落的因素可能有几十甚至上百种，而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。这里我们先不讨论算法（这里用的是ID3/C4.5），把一棵决策树建立起来再说。我们要建立的决策树的形式类似于“如果天气怎么样，去玩；否则，怎么着怎么着”的树形分叉。那么问题是用哪个属性（即变量，如天气、温度、湿度和风力）最适合充当这颗树的根节点，在它上面没有其他节点，其他的属性都是它的后续节点。借用信息论的概念，我们用一个统计量，“信息增益”（Information Gain）来衡量一个属性区分以上数据样本的能力。信息增益量越大，这个属性作为一棵树的根节点就能使这棵树更简洁，比如说一棵树可以这么读成，如果风力弱，就去玩；风力强，再按天气、温度等分情况讨论，此时用风力作为这棵树的根节点就很有价值。如果说，风力弱，再又天气晴朗，就去玩；如果风力强，再又怎么怎么分情况讨论，这棵树相比就不够简洁了。计算信息增益的公式需要用到“熵”（Entropy）。名词越来越多

信息增益（IG，Information Gain）的理解和计算

阅读更多关于信息增益（IG，Information Gain）的理解和计算

决策树构建中节点的选择靠的就是信息增益了。信息增益是一种有效的特征选择方法，理解起来很简单：增益嘛，肯定是有无这个特征对分类问题的影响的大小，这个特征存在的话，会对分类系统带来多少信息量，缺了他行不行？既然是个增益，就是个差了，减法计算一下，谁减去谁呢？这里就用到了信息熵的概念，放到分类系统里面，信息熵如何计算呢？分类系统里面无非是样本xi以及样本的分类结果yi，假设这个分类系统有k类，那么作为训练集来说，分类情况基本就定了，是按照样本的各个特征定的。那么在这些样本的信息的前提下，分类器有个结果，就自然包含了一种信息量在里面，可以用信息熵E（S）计算出来。当然大家都知道熵表达的是不确定度，分布约均匀，越不确定，熵越大。那么当把特征f引入的时候，会不会对系统的信息量有所影响呢？也就引入f之后的系统不确定度E（S|f）是多少呢？其实是个条件熵。也就是加入条件f之后，不确定度减少了多少？信息熵的有效减少量是多少？为了计算条件熵，我们可以固定f的值，也就是根据f在训练集中呈现的值，计算条件熵E（S|f）。简单的说就是，把根据f划分的各个小系统的信息熵加权求和，权重就是各个小系统占系统S的比例（假设f有两个值0、1，选0的时候有a个样本，样本当然有类别y；f是1的时候有b个样本；a+b=n（样本总数）；那么权重就是a/n和b/n了；每个小系统的信息当然跟大系统求法一样了）。

了解信息增益和决策树

阅读更多关于了解信息增益和决策树

信息增益 ================ 一，特征选择中的信息增益： ================ 信息增益是什么，我们先从它的用处来了解它：信息增益是特征选择中的一个重要指标，它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。那么如何衡量一个特征为分类系统带来的信息多少呢：对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，其实就是熵。 ================ 二，计算信息增益：利用熵 ================ 1. 信息论里的熵因此先回忆一下信息论中有关信息量（就是“熵”）的定义。说有这么一个变量X，它可能的取值有n多种，分别是x 1 ，x 2 ，……，x n ，每一种取到的概率分别是P 1 ，P 2 ，……，P n ，那么X的熵就定义为：意思就是一个变量可能的变化越多（反而跟变量具体的取值没有任何关系，只和值的种类多少以及发生概率有关），它携带的信息量就越大（因此我一直觉得我们的政策法规信息量非常大，因为它变化很多，基本朝令夕改，笑）。 2. 分类系统里的熵对分类系统来说，类别C是变量，它可能的取值是C 1 ，C 2 ，……，C n ，而每一个类别出现的概率是P(C 1 )，P(C 2 )，……，P(C n )，因此n就是类别的总数

机器学习实战之决策树基础笔记

阅读更多关于机器学习实战之决策树基础笔记

决策树的优缺点优点计算复杂度不高输出结果容易理解对中间值的缺失不敏感可以处理不相关特征数据缺点可能会产生过度匹配问题决策树原理《机器学习实战》书中讲了二十个问题的游戏的一个例子：就是参与游戏的一方脑子里想着某个事物。其他参与者可以向他提29个问题，但是答案只能用对错来回答。比如最简单的猜数游戏。我心里想一个数是7.然后A说你心里想的数比100小。然后我说正确。然后B说你心里想的数比10大，我说回答错误。然后C、D、E等人继续提问，直到那个数的范围越来越小，直到猜中答案。决策树的工作原理就是这样，用户给出一系列数据，然后给出游戏的答案。相比于书中给出的邮件的例子，我更喜欢Jack Cui的例子，便于理解。所以下文中所有的例子以Jack Cui的例子为主。如下就是一个决策树的树状图。决策树的结构主要是由结点和有向边组成。结点分为内部结点和叶结点。内部节点用来表示一个特征或者一个属性。叶结点表示一个类。长方形和椭圆形都是结点。长方形属于内部结点，下面还有分支或者叶结点。椭圆形是叶结点，下面没有分支。是结束。对上图中的一些元素进行解释：长方形代表判断模块椭圆形代表终止模块，用于得到结论从长方形（判断模块）出来的箭头是分支，可以到达另一个模块或者终止模块流程图解释这是一个简单的岳母相亲的分类模型。就是岳母来了先问问你有没有房子车子啊，如果有的话

决策树ID3、C4.5概述

阅读更多关于决策树ID3、C4.5概述

1.获取数据集 2.从数据集中找到最优的切分特征(离散变量)/最优切分特征和最优切分特征值(连续变量) ID3算法:信息熵/条件熵/信息增益选择决断特征时选择信息增益最大的信息熵:[衡量信息的复杂度] H(D) = -∑[P(i)log(p(i))]: p(i)-->第i个类别出现的概率条件熵:[在X给定的情况下,D的条件分布的熵对X的期望] H(D|X) = ∑[p(j)H(D|X = x(j))] X-->某个特征 x(j)-->特征值 H(D|X = x(j))-->数据D中特征X的特征值等于x(j)时D中相关数据的信息熵 p(j)-->特征X的特征值等于x(j)的概率信息增益(特征X的信息增益):[在得知特征X的条件下,使得数据D不确定性减少的程度] Gain(D,X) = H(D) - H(D|X) 备注: 信息增益是针对一个一个的特征而言的,就是看数据有他和无他时的信息熵各是多少,两者差值就是该特征给系统带来的的信息增益 C4.5算法:以信息增益进行分类决策是,存在偏向取值较多的特征的问题, 为了解决这个问题,开发了基于信息增益比的分类决策算法,也就是说C4.5 备注: a.C4.5与ID3都是利用贪心算法进行求解 b.选取决断特征时选择信息增益比最大的 c.分裂信息度量SplitInformatioon(D,X): 备注: 1

订阅信息增益