散度

梯度,散度,拉普拉斯算子

拜拜、爱过 提交于 2020-03-07 22:51:33
综述 说到mesh上的处理技巧,拉普拉斯绝对是关键的一环,比如surface smoothing, parameterization and shape modeling等等都是十分重要的。 人们常说的是,拉普拉斯算子其实就是梯度的散度。 写在前面 首先给出:纯量(标量),矢量 标量(scalar),亦称“无向量”。有些物理量,只具有数值大小,而没有方向,部分有正负之分。物理学中,标量(或作 纯量 )指在坐标变换下保持不变的物理量。用通俗的说法,标量是只有大小,没有方向的量。 矢量(vector)是一种既有大小又有方向的量,又称为向量。 一般来说,在物理学中称作矢量,例如速度、加速度、力等等就是这样的量。 梯度 标量 -> 矢量 想象一座山,山的每一个点上都得到一个向量(事实上在三维中,你可以随意的定义方向向量),假设我们现在的向量指向每个点变化最陡的那个方向,而向量的大小(模)则代表了这个最陡的方向到底有多陡。梯度,众所周知,是一个向量。 散度 矢量 -> 标量 散度的作用对象是向量场,如果现在我们考虑任何一个点(或者说这个点的周围 极小的一块区域 ),在这个点上,向量场的发散程度,如果是正的,代表这些向量场是往外散出的。如果是负的,代表这些向量场是往内集中的。 思考一个点电荷激发的电场,任意选取一个单位体积,若是单位体积不包含该电荷,那么毫无疑问

KL散度

Deadly 提交于 2020-02-11 14:00:21
KL散度( Kullback–Leibler divergence)是描述两个概率分布P和Q差异的一种测度。 KL散度的性质:P表示真实分布,Q表示P的拟合分布 非负性:KL(P||Q)>=0,当P=Q时,KL(P||Q)=0; 非对称性:D(P||Q) ≠ D(Q||P) KL散度不满足三角不等 来源: https://www.cnblogs.com/gaona666/p/12294526.html

概率分布之间的距离度量以及python实现(三)

瘦欲@ 提交于 2020-02-07 06:53:44
转自: https://www.cnblogs.com/denny402/p/7050779.html 概率分布之间的距离,顾名思义,度量两组样本分布之间的距离 。 1、卡方检验 统计学上的 χ 2 统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ 2 ,其计算公式为   (i=1,2,3,…,k)   其中, A i 为i水平的观察频数, E i 为i水平的期望频数,n为总频数, p i 为i水平的期望频率。i水平的期望频数 E i 等于总频数n×i水平的期望概率 p i 。当n比较大时, χ 2 统计量近似服从k-1(计算 E i 时用到的参数个数)个自由度的卡方分布。 卡方检验经常用来检验某一种观测分布是不是符合某一类典型的理论分布(如二项分布,正态分布等)。 观察频数与期望频数越接近,两者之间的差异越小, χ 2 值越小;如果两个分布完全一致, χ 2 值为0; 反之,观察频数与期望频数差别越大,两者之间的差异越大, χ 2 值越大。 换言之,大的 χ 2 值表明观察频数远离期望频数,即表明远离假设。小的 χ 2 值表明观察频数接近期望频数,接近假设。因此, χ 2 是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果 χ 2 值“小”,研究者就倾向于不拒绝 H 0 ;如果 χ 2 值大

浅谈KL散度

心已入冬 提交于 2020-01-30 08:22:26
一、第一种理解     相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。   KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。    根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:   H(X)=∑ x∈X P(x)log[1/P(x)]   在同样的字符集上,假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码(即字符x的编码长度等于log[1/P(x)]),来为符合分布Q(X)的字符编码,那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离。即:   D KL (Q||P)=∑ x∈X Q(x)[log(1/P(x))] - ∑ x∈X Q(x)

信息论相关概念:熵 交叉熵 KL散度 JS散度

不羁岁月 提交于 2020-01-07 22:58:09
目录 机器学习基础--信息论相关概念总结以及理解 1. 信息量 2. KL散度 机器学习基础--信息论相关概念总结以及理解 摘要: 熵(entropy)、KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)以及JS散度,在深度学习以及机器学习很多地方都用的到,尤其是对于目标函数和损失函数的定义。在逻辑回归问题中,目标函数就是用交叉熵定义的。 1. 信息量 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。信息论的基本想法是一个不太可能的事件发生了,要比一个非常可能的事件发生,能提供更多的信息。 事件发生的可能性大,信息量少;事件发生的可能性小,其信息量大。 比如:早上你出门碰到一个朋友,他告诉你今天是晴天,这句话的信息量就很小,因为天气你已经知道了,而且是个确定性事件,等同于废话。 要是他再告诉你,明天可能下雪,这句话的信息量就比刚刚的话要大好多。 可以看出信息量的大小与事件发生的可能性成反比。 非常可能发生的事件信息量要比较少。在极端情况下,确保能够发生的事件应该没有信息量。 较不可能发生的事件具有更高的信息量。 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。   为了满足上面 3 个性质,定义了一事件 x=X 的自信息(self

Object as Distribution

醉酒当歌 提交于 2019-12-27 04:20:52
**Object as Distribution** 摘要:目标检测是视觉场景理解的关键部分。目标在检测任务中的表示方式对注释的效率和可行性,遮挡的鲁棒性,姿势,光照和其他语义不确定性的可视源以及现实应用中的有效性(例如,自动驾驶)都具有重要意义。比较流行的目标表示形式包括2D和3D边界框,多边形,样条线,像素和体素。每种都有自己的优点和缺点。在这项工作中,我们提出了一种新的基于二元正态分布的目标的表示形式。这种基于分布的表示形式具有以下优点:可以可靠地检测高度重叠的目标,并且由于目标边缘的统计表示形式,具有改进下游跟踪和实例分割任务的潜力。我们对该目标检测任务的表示形式进行定性评估,并对其在实例分割任务的基准算法中的使用情况进行定量评估。 1 引言: 50多年来,目标检测一直是计算机视觉领域的主要问题之一[1]。 “目标”及其与场景的关系没有普遍的形式化或定义-这是数学,计算机科学,认知科学和哲学领域广泛研究和讨论的话题。尽一切努力明确定义在视觉场景中成为独特目标意味着什么,很多有价值的语义知识被丢弃了[2]。在计算机视觉中,2D图像空间中的目标已由其2D边界框[3],3D边界框[4],多边形[5],样条线[6],像素[7]和体素[8]定义。每个表示都有基准和最新的算法。从特定应用的实用角度(例如机器视觉)考虑,每种方法都有优点和缺点,它们提供了不同级别的保真度

变分自动编码器(VAE)

做~自己de王妃 提交于 2019-12-18 06:12:33
VAE(Variational Autoencoder)的原理 Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013). 论文的理论推导见:https://zhuanlan.zhihu.com/p/25401928 中文翻译为:变分自动编码器 转自:http://kvfrans.com/variational-autoencoders-explained/ 下面是VAE的直观解释,不需要太多的数学知识。 什么是变分自动编码器? 为了理解VAE,我们首先从最简单的网络说起,然后再一步一步添加额外的部分。 一个描述神经网络的常见方法是近似一些我们想建模的函数。然而神经网络也可以被看做是携带信息的数据结构。 假如我们有一个带有解卷积层的网络,我们设置输入为值全为1的向量,输出为一张图像。然后,我们可以训练这个网络去减小重构图像和原始图像的平均平方误差。那么训练完后,这个图像的信息就被保留在了网络的参数中。 现在,我们尝试使用更多的图片。这次我们用one-hot向量而不是全1向量。我们用[1, 0, 0, 0]代表猫,用[0, 1, 0, 0]代表狗。虽然这要没什么问题,但是我们最多只能储存4张图片。当然

生成对抗网络学习——WGAN

笑着哭i 提交于 2019-12-17 03:46:13
文章目录 一、WGAN原理 第一部分:原始GAN究竟出了什么问题? 第一种原始GAN形式的问题 第二种原始GAN形式的问题 第三部分:Wasserstein距离的优越性质 第四部分:从Wasserstein距离到WGAN WGAN,全称是Wasserstein GAN。 【paper】: https://arxiv.org/abs/1701.07875 【GitHub】: 参考资料: 原理: 1、 令人拍案叫绝的Wasserstein GAN 2、 李弘毅GAN网络MOOC 代码解读: 【1】WGAN-GP代码及注释 https://blog.csdn.net/qq_20943513/article/details/73129308 【2】包括了DCGAN,LSAGN,WGAN,以及WGAN-GP的代码 https://blog.csdn.net/Diana_Z/article/details/87184465 【3】WGAN代码解读及实验总结 https://blog.csdn.net/CLOUD_J/article/details/94392474 一、WGAN原理 自从2014年Ian Goodfellow提出以来, GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题 。从那时起,很多论文都在尝试解决,但是效果不尽人意

机器学习之相对熵、交叉熵(为什么交叉熵可以作为损失函数)

回眸只為那壹抹淺笑 提交于 2019-12-10 15:58:10
文章目录 自信息 信息熵 相对熵(KL散度) 交叉熵 为什么交叉熵可以作为损失函数 参考文章 自信息   信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能够提供发更多的信息。消息说:“今天早上太阳升起”,信息量是如此少,以至于没有必要发送;但一条消息说:“今天早上有日食”,信息量就很丰富。   一条信息的信息量大小和它的不确定性有直接的关系,我们可以认为, 信息量的度量就等于不确定性的多少 。使用 自信息 来量化 信息量 : I ( x ) = − l o g P ( x ) I(x)=-logP(x) I ( x ) = − l o g P ( x )    l o g log l o g 函数基的选择是任意的,信息论中基常常选择为2,因此信息的单位为比特(bit);而机器学习中基常常选择为自然常数,因此单位常常被称为奈特(nats)。 信息熵   使用信息熵对整个 概率分布 中的 不确定性总量 进行量化: H ( X ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ] H(X)=E_{x\sim P}[I(x)]=-E_{x\sim P}[logP(x)] H ( X ) = E x ∼ P ​ [ I ( x ) ] = − E x ∼ P ​ [ l o g P ( x ) ]  

数学基础_概率论基础_KL散度

南楼画角 提交于 2019-12-10 15:35:58
KL散度(Kullback-Leibler divergence),可以以称作相对熵。KL散度的理论意义在于度量两个概率分布之间的差异程度,当KL散度越高的时候,说明两者的差异程度越大;而当KL散度低的时候,则说明两者的差异程度小。如果两者相同的话,则该KL散度应该为0。 接下来我们举一个具体的例子: 我们设定两个概率分布分别为P和Q,在假定为连续随机变量的前提下,他们对应的概率密度函数分别为p(x)和q(x)。我们可以写出如下公式: K L ( P ∣ ∣ Q ) = ∫ p ( x ) log ⁡ p ( x ) q ( x ) d x KL(P||Q) = \int p(x)\log \frac{p(x)}{q(x)}dx K L ( P ∣ ∣ Q ) = ∫ p ( x ) lo g q ( x ) p ( x ) ​ d x 从上面的公式可以看出,当且仅当P=Q时,KL(P||Q) = 0。此外我们也发现KL散度具备非负的特性,即P(P||Q) >= 0。但是从公式中我们也可以发现,Kl散度不具备对称性,也就是说P对于Q的KL散度并不等于Q对于P的KL散度。 我们在来看看离散的情况下KL散度的公式: K L ( P ∣ ∣ Q ) = ∑ p ( x ) log ⁡ p ( x ) q ( x ) KL(P||Q) = \sum p(x)\log \frac{p(x)}