信息熵

距离计算方法总结

不想你离开。 提交于 2020-03-31 05:17:34
距离计算方法总结   在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2

西瓜书第四章--决策树

痞子三分冷 提交于 2020-03-28 13:06:48
4.1基本流程 决策树的结构 一个决策树包含一个根结点、若干个内部结点和若干个叶结点; 叶结点对应于决策结果,其他每个结点则对应于一个属性测试; 每个结点包含的样本集合根据属性测试的结果被划分到子结点中; 根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列。 仅有一层划分的决策树,也称“决策树桩”(decision stump);决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树 决策树学习基本算法 显然,决策树的生成是一个递归过程。在决策树的基本算法中,有三种情形会导致递归返回: (1)当前结点包含的样本全部属于同一类, 无需划分 (2)当前属性集为空,或所有样本在所有属性上取值相同, 无法划分 (3)当前结点包含的样本为空, 不能划分 对各种情形的处理方式: 情形(2):属性集为空或所有样本属性上取值相同 把当前结点标记为叶结点,其类别设定为该结点样本集合中最多的类别; 此为利用当前结点的后验分布 情形(3):样本为空 把当前结点标记为叶结点,其类别设定为父结点样本集合中最多的类别 把父结点的样本分布作为当前结点的先验分布 4.2划分选择 决策树学习的关键在于如何选择最优划分属性也就是第8步。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。(也即信息熵越低)

信息论和数理统计——机器学习基础

Deadly 提交于 2020-03-26 18:11:44
目录 一、信息论 熵 信源 信息量 信息熵 条件熵 信息增益 信息增益比 相对熵 最大熵原理 二、数理统计 与概率论的区别 统计推断方式一:参数估计 统计推断方式二:假设检验 一、信息论 信息论处理的是客观世界中的不确定性。 通信的基本问题是在一点精确地或近似地复现在另一点所选取的消息。在生活中,信息的载体是消息。 不同的消息带来的信息在直观感觉上不是完全相同的,比如“马云获得奥赛健美冠军”比“施瓦辛格获得奥赛健美冠军”的信息要大得多。 因为前者是小概率事件,而后者我们已经习以为常。不确定性越大的消息提供的信息量越大。 熵 一个系统内在的混乱程度 信源 产生消息(符号)、消息序列和连续消息的来源。 信息量 信息多少的量度 在信息论中,如果事件A发生的概率为 \(p(A)\) ,则这个事件的自信息量定义为 \(h(A)=−log_2p(A)\) 比如:当 \(p(A\) )为1/1000得出信息量约为10,当 \(p(A)\) 为1/2得出的信息量约为1 信息熵 信息熵是信源可能发出的各个符号的自信息量在信源构成的概率空间上的统计平均值。 根据单个事件的自信息量可以计算包含各个符号的信源的信息熵 如果一个离散信源X包含n个符号,每个符号 \(a_i\) 的取值为 \(p(a_i)\) ,则X的信源熵为 \(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)

一文帮你搞懂何为信息增益——决策树必备

↘锁芯ラ 提交于 2020-03-23 12:01:33
一、何为决策树 决策树是监督学习算法之一,并且是一种基本的分类与回归方法;决策树也分为回归树和分类树,本文讨论的是分类树。如果了解或者学过数据结构,肯定对"树"这个概念是不陌生的,在此基础上学习掌握决策树也会更加容易,下面通过一个小例子帮助理解何为决策树。 下图所示流程图即为一个决策树,矩形代表判断模块、椭圆形则代表终止模块,表示已经得出结论可以终止程序的运行;左右箭头表示分支,可以通过它到达另一判断模块或终止模块。 这个流程图主要是假想一个择偶系统,之前网上不流行这样一句话嘛," 阿姨我不想努力了 ",该树就以是否想继续努力为判断依据,如果你不想继续努力了,你可以选择找一个" 富婆 ";反之,你想找一个女朋友一起奋斗,这里又以女孩的性格为判断依据,如果喜欢性格温柔的,即选择" 温柔女孩 ",若喜欢性格高冷的,则选择" 酷女孩 "。 整个决策树可以看成一个 if—then 规则,即"如果判断条件,则……",并且需要注意以下三点: 根节点到每一个子节点的路径可构成一条规则。 每条路径上中间节点的特征对应该条规则的判断条件,叶子节点的标签对应该规则的结论。 每一个实例都被有且仅有一条实例覆盖,即实例的特征与路径上的特征一致。 二、决策树的流程 收集数据:公开数据源或爬虫等方式。 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。 分析数据:可以使用任何方法

决策树原理(一)

你说的曾经没有我的故事 提交于 2020-03-04 08:29:53
小伙伴们,欢迎浏览我的博客,从今天开始,我将为大家开始讲解机器学习的基础算法,如决策树、KNN算法、SVM、神经网络等。本节先讲解决策树算法。 一、机器学习中分类与预测算法评估 1、准确率 2、速度 3、强壮性 4、可规模性 5、可解释性 在机器学习算法当中、评价一个算法的好坏或者比较两个算法的优劣,主要以上5个方面进行评估。首先 准确率 是指算法分类或者预测的准确程度,这是个非常重要的标准,而 速度 是指算法的复杂度高不高,其次 强壮行 是指一个算法在包含噪音、缺失值、异常值的数据中依然保持非常好的效率 , 可规模性 是指一个算法不仅可以在小规模数据上保持高效,在呈指数型增长的数据中依然能保持高效,最后 可解释性 是指算法在做出特征值的选取和归类能容易的解释这种归类和我们的直觉是相符的。 二、决策树 1、什么是决策树/判定书(decision tree)? 决策树是类似于流程图的树结构:其中,每个内部节点表示在一个属性上的测试,每个分支表示一个属性的输出,而每个树叶节点表示一个类或者类分布。树的最顶层是根节点。 以上图为例,该决策树的属性有:OUTLOOK、HUMIDITY、WINDY,以OUTLOOK属性为根节点,OUTLOOK有三个取值,即sunny、overcast、rain,根节点的三个分支就是它三个值的输出。决策树有五个叶子,叶子代表已经分好的类,即Play或者Don

机器学习中的相似性度量

南楼画角 提交于 2020-03-03 00:05:36
  在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X

机器学习中的相似性度量

吃可爱长大的小学妹 提交于 2020-03-01 22:55:33
本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X = [0 0 ; 1 0 ; 0 2] D = pdist(X,'euclidean') 结果: D = 1.0000 2.0000 2.2361 2. 曼哈顿距离 (Manhattan Distance)

机器学习实战 -- 决策树(ID3)

蓝咒 提交于 2020-02-22 03:49:05
机器学习实战 -- 决策树(ID3) ID3是什么我也不知道,不急,知道他是干什么的就行 ID3是最经典最基础的一种决策树算法,他会将每一个特征都设为决策节点,有时候,一个数据集中,某些特征属性是不必要的或者说信息熵增加的很少,这种决策信息是可以合并的修剪的,但是ID3算法并不会这么做 决策树的核心论点是香农信息论,借此理论得出某种分类情况下的信息熵 某种决策下,分类趋向于统一,则香农熵很小(熵描述杂乱无序的程度,如果'YES', 'NO' 可能性对半分,那么这个分类决策最终是趋向于杂乱的熵值会很大, 只出现 'YES' 那么表示这个决策的结果趋向于一个统一的结果,固定,那么熵就很小) 综上: 某个决策节点下,信息熵越小,说明这个决策方式越好 整个决策树分为三个部分:1.学习出决策树 2.绘制决策树 3.存储决策树 比起sklearn这个决策树更简单,没有考虑基尼系数,只关注信息熵 from math import log '' ''' 计算香农熵 ''' def calcShannonEnt(dataset): '' ''' dataset —— 数据集 eg:[[f1,f2,f3,L1],[f1,f2,f3,L2]] f 表示特征, L 表示标签 shannonEnt —— 香农熵 ''' numEntries=len(dataset) # 统计数据集中样本数量

通俗的解释交叉熵与相对熵

拥有回忆 提交于 2020-02-21 03:57:07
参考 信息熵是什么? 交叉熵损失函数原理详解 信息可以量化? 信息熵,信息熵,怎么看怎么觉得这个 “熵” 字不顺眼,那就先不看。我们起码知道这个概念跟信息有关系。而它又是个数学模型里面的概念,一般而言是可以量化的。所以,第一个问题来了:信息是不是可以量化? 起码直觉上而言是可以的,不然怎么可能我们觉得有些人说的废话特别多,“没什么信息量”,有些人一语中的,一句话就传达了很大的信息量。 为什么有的信息量大有的信息量小? 有些事情本来不是很确定,例如明天股票是涨还是跌。如果你告诉我明天 NBA 决赛开始了,这两者似乎没啥关系啊,所以你的信息对明天股票是涨是跌带来的信息量很少。但是假如 NBA 决赛一开始,大家都不关注股票了没人坐庄股票有 99% 的概率会跌,那你这句话信息量就很大,因为本来不确定的事情变得十分确定。 而有些事情本来就很确定了,例如太阳从东边升起,你再告诉我一百遍太阳从东边升起,你的话还是丝毫没有信息量的,因为这事情不能更确定了。 所以说 信息量的大小跟事情不确定性的变化有关 。 那么,不确定性的变化跟什么有关呢? 一,跟事情的可能结果的数量有关;二,跟概率有关。 先说一。 例如我们讨论太阳从哪升起。本来就只有一个结果,我们早就知道,那么无论谁传递任何信息都是没有信息量的。 当可能结果数量比较大时,我们得到的新信息才有潜力拥有大信息量。 二,单看可能结果数量不够

概率分布之间的距离度量以及python实现(三)

瘦欲@ 提交于 2020-02-07 06:53:44
转自: https://www.cnblogs.com/denny402/p/7050779.html 概率分布之间的距离,顾名思义,度量两组样本分布之间的距离 。 1、卡方检验 统计学上的 χ 2 统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ 2 ,其计算公式为   (i=1,2,3,…,k)   其中, A i 为i水平的观察频数, E i 为i水平的期望频数,n为总频数, p i 为i水平的期望频率。i水平的期望频数 E i 等于总频数n×i水平的期望概率 p i 。当n比较大时, χ 2 统计量近似服从k-1(计算 E i 时用到的参数个数)个自由度的卡方分布。 卡方检验经常用来检验某一种观测分布是不是符合某一类典型的理论分布(如二项分布,正态分布等)。 观察频数与期望频数越接近,两者之间的差异越小, χ 2 值越小;如果两个分布完全一致, χ 2 值为0; 反之,观察频数与期望频数差别越大,两者之间的差异越大, χ 2 值越大。 换言之,大的 χ 2 值表明观察频数远离期望频数,即表明远离假设。小的 χ 2 值表明观察频数接近期望频数,接近假设。因此, χ 2 是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果 χ 2 值“小”,研究者就倾向于不拒绝 H 0 ;如果 χ 2 值大