信息增益

统计学习方法 李航---第5章 决策树

北城以北 提交于 2020-02-06 04:58:44
第5章 决策树 决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习 定义5.1 (决策树) : 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。 图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则 可以将决策树看成一个if-then规则的集合,转换成if-then规则的过程:由决策树的根结点到叶结点的每一条路径构建一条规则

特征选择方法之信息增益

房东的猫 提交于 2020-01-30 02:34:37
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回顾一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,各自是x 1 ,x 2 ,……,x n ,每一种取到的概率各自是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量详细的取值没有不论什么关系,仅仅和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直认为我们的政策法规信息量非常大,由于它变化非常多,基本朝令夕改,笑)。 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数。此时分类系统的熵就能够表示为: 有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C 1 ,C 2 ,……,C

特征选择方法之信息增益

老子叫甜甜 提交于 2020-01-30 02:30:32
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回顾一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,各自是x 1 ,x 2 ,……,x n ,每一种取到的概率各自是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量详细的取值没有不论什么关系,仅仅和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直认为我们的政策法规信息量非常大,由于它变化非常多,基本朝令夕改,笑)。 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数。此时分类系统的熵就能够表示为: 有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C 1 ,C 2 ,……,C

特征选择方法之信息增益

こ雲淡風輕ζ 提交于 2020-01-30 01:57:43
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回顾一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,各自是x 1 ,x 2 ,……,x n ,每一种取到的概率各自是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量详细的取值没有不论什么关系,仅仅和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直认为我们的政策法规信息量非常大,由于它变化非常多,基本朝令夕改,笑)。 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数。此时分类系统的熵就能够表示为: 有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C 1 ,C 2 ,……,C

特征选择方法之信息增益

天大地大妈咪最大 提交于 2020-01-30 01:50:46
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回顾一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,各自是x 1 ,x 2 ,……,x n ,每一种取到的概率各自是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量详细的取值没有不论什么关系,仅仅和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直认为我们的政策法规信息量非常大,由于它变化非常多,基本朝令夕改,笑)。 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数。此时分类系统的熵就能够表示为: 有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C 1 ,C 2 ,……,C

信息增益(Information Gain)

微笑、不失礼 提交于 2020-01-30 00:45:04
当 我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以称之为“最大熵法”。最大熵法在数学形式上很漂亮,但是实现起来比较复杂,但把它运用于金融领域的诱惑也比较大,比如说决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。 这里我们先不讨论算法(这里用的是ID3/C4.5),把一棵决策树建立起来再说。我们要建立的决策树的形式类似于“如果天气怎么样,去玩;否则,怎么着怎么着”的树形分叉。那么问题是用哪个属性(即变量,如天气、温度、湿度和风力)最适合充当这颗树的根节点,在它上面没有其他节点,其他的属性都是它的后续节点。借用信息论的概念,我们用一个统计量,“信息增益”(Information Gain)来衡量一个属性区分以上数据样本的能力。信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁,比如说一棵树可以这么读成,如果风力弱,就去玩;风力强,再按天气、温度等分情况讨论,此时用风力作为这棵树的根节点就很有价值。如果说,风力弱,再又天气晴朗,就去玩;如果风力强,再又怎么怎么分情况讨论,这棵树相比就不够简洁了。计算信息增益的公式需要用到“熵”(Entropy)。名词越来越多

信息增益(IG,Information Gain)的理解和计算

∥☆過路亽.° 提交于 2020-01-30 00:44:02
决策树构建中节点的选择靠的就是信息增益了。 信息增益是一种有效的特征选择方法,理解起来很简单:增益嘛,肯定是有无这个特征对分类问题的影响的大小,这个特征存在的话,会对分类系统带来多少信息量,缺了他行不行? 既然是个增益,就是个差了,减法计算一下,谁减去谁呢? 这里就用到了信息熵的概念,放到分类系统里面,信息熵如何计算呢? 分类系统里面无非是样本xi以及样本的分类结果yi,假设这个分类系统有k类,那么作为训练集来说,分类情况基本就定了,是按照样本的各个特征定的。那么在这些样本的信息的前提下,分类器有个结果,就自然包含了一种信息量在里面,可以用信息熵E(S)计算出来。 当然大家都知道熵表达的是不确定度,分布约均匀,越不确定,熵越大。 那么当把特征f引入的时候,会不会对系统的信息量有所影响呢?也就引入f之后的系统不确定度E(S|f)是多少呢?其实是个条件熵。也就是加入条件f之后,不确定度减少了多少?信息熵的有效减少量是多少? 为了计算条件熵,我们可以固定f的值,也就是根据f在训练集中呈现的值,计算条件熵E(S|f)。简单的说就是,把根据f划分的各个小系统的信息熵加权求和,权重就是各个小系统占系统S的比例(假设f有两个值0、1,选0的时候有a个样本,样本当然有类别y;f是1的时候有b个样本;a+b=n(样本总数);那么权重就是a/n和b/n了;每个小系统的信息当然跟大系统求法一样了)。

了解信息增益和决策树

对着背影说爱祢 提交于 2020-01-30 00:30:11
信息增益 ================ 一,特征选择中的信息增益: ================ 信息增益是什么,我们先从它的用处来了解它: 信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。 那么如何衡量一个特征为分类系统带来的信息多少呢: 对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。 ================ 二,计算信息增益:利用熵 ================ 1. 信息论里的熵 因此先回忆一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,分别是x 1 ,x 2 ,……,x n ,每一种取到的概率分别是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直觉得我们的政策法规信息量非常大,因为它变化很多,基本朝令夕改,笑)。 2. 分类系统里的熵 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每一个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数

机器学习实战之决策树基础笔记

柔情痞子 提交于 2020-01-30 00:06:44
决策树的优缺点 优点 计算复杂度不高 输出结果容易理解 对中间值的缺失不敏感 可以处理不相关特征数据 缺点 可能会产生过度匹配问题 决策树原理 《机器学习实战》书中讲了二十个问题的游戏的一个例子:就是参与游戏的一方脑子里想着某个事物。其他参与者可以向他提29个问题,但是答案只能用对错来回答。比如最简单的猜数游戏。我心里想一个数是7.然后A说你心里想的数比100小。然后我说正确。然后B说你心里想的数比10大,我说回答错误。然后C、D、E等人继续提问,直到那个数的范围越来越小,直到猜中答案。决策树的工作原理就是这样,用户给出一系列数据,然后给出游戏的答案。 相比于书中给出的邮件的例子,我更喜欢Jack Cui的例子,便于理解。所以下文中所有的例子以Jack Cui的例子为主。 如下就是一个决策树的树状图。决策树的结构主要是由结点和有向边组成。结点分为内部结点和叶结点。内部节点用来表示一个特征或者一个属性。叶结点表示一个类。长方形和椭圆形都是结点。长方形属于内部结点,下面还有分支或者叶结点。椭圆形是叶结点,下面没有分支。是结束。 对上图中的一些元素进行解释: 长方形代表判断模块 椭圆形代表终止模块,用于得到结论 从长方形(判断模块)出来的箭头是分支,可以到达另一个模块或者终止模块 流程图解释 这是一个简单的岳母相亲的分类模型。就是岳母来了先问问你有没有房子车子啊,如果有的话

决策树ID3、C4.5概述

余生长醉 提交于 2020-01-14 01:47:56
1.获取数据集 2.从数据集中找到最优的切分特征(离散变量)/最优切分特征和最优切分特征值(连续变量) ID3算法:信息熵/条件熵/信息增益 选择决断特征时选择信息增益最大的 信息熵:[衡量信息的复杂度] H(D) = -∑[P(i)log(p(i))]: p(i)-->第i个类别出现的概率 条件熵:[在X给定的情况下,D的条件分布的熵对X的期望] H(D|X) = ∑[p(j)H(D|X = x(j))] X-->某个特征 x(j)-->特征值 H(D|X = x(j))-->数据D中特征X的特征值等于x(j)时D中相关数据的信息熵 p(j)-->特征X的特征值等于x(j)的概率 信息增益(特征X的信息增益):[在得知特征X的条件下,使得数据D不确定性减少的程度] Gain(D,X) = H(D) - H(D|X) 备注: 信息增益是针对一个一个的特征而言的,就是看数据有他和无他时的信息熵 各是多少,两者差值就是该特征给系统带来的的信息增益 C4.5算法:以信息增益进行分类决策是,存在偏向取值较多的特征的问题, 为了解决这个问题,开发了基于信息增益比的分类决策算法,也就是说C4.5 备注: a.C4.5与ID3都是利用贪心算法进行求解 b.选取决断特征时选择信息增益比最大的 c.分裂信息度量SplitInformatioon(D,X): 备注: 1