似然函数

极大似然小结

强颜欢笑 提交于 2019-12-01 07:29:36
在机器学习中,我们经常要利用极大似然法近似数据整体的分布,本篇文章通过介绍极大似然法及其一些性质,旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率 首先看一下经典的贝叶斯公式: \[ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} \] 其中, \(p(Y)\) 称为先验概率( \(prior\) ),即根据先验知识得出的关于变量 \(Y\) 的分布, \(p(X|Y)\) 称为似然函数( \(likelihood\) ), \(p(X)\) 为变量 \(X\) 的概率, \(p(Y|X)\) 称之为条件概率(给定变量 \(X\) 的情况下 \(Y\) 的概率, \(posterior\) ,后验概率)。 1. 似然函数 似然,即可能性;顾名思义,则似然函数就是关于可能性的函数了。在统计学中,它表示了模型参数的似然性,即作为统计模型中参数的函数。一般形式如下: \[ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) \] 其中, \(D\) 表示样本集 \(\{x_1,x_2,\cdots, x_n\}\) ,   \(\omega\) 表示参数向量。 似然函数表示了在不同的参数向量 \(\omega\) 下,观测数据出现的可能性的大小,它是参数向量 \(\omega\) 的函数。在某种意义上

极大似然小结

ⅰ亾dé卋堺 提交于 2019-12-01 06:21:13
在机器学习中,我们经常要利用极大似然法近似数据整体的分布,本篇文章通过介绍极大似然法及其一些性质,旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率 首先看一下经典的贝叶斯公式: $$ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} $$ 其中,$p(Y)$称为先验概率($prior$),即根据先验知识得出的关于变量$Y$的分布,$p(X|Y)$称为似然函数($likelihood$),$p(X)$为变量$X$的概率,$p(Y|X)$称之为条件概率(给定变量$X$的情况下$Y$的概率,$posterior$,后验概率)。 1. 似然函数 似然,即可能性;顾名思义,则似然函数就是关于可能性的函数了。在统计学中,它表示了模型参数的似然性,即作为统计模型中参数的函数。一般形式如下: $$ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) $$ 其中,$D$表示样本集${x_1,x_2,\cdots, x_n}$,  $\omega$表示参数向量。 似然函数表示了在不同的参数向量$\omega$下,观测数据出现的可能性的大小,它是参数向量$\omega$的函数。在某种意义上,我们可以认为其是条件概率的逆反$^{[1]}$。 在这里利用Wikipedia$^{[1]}$中的例子简要说明一下似然函数

19 误差分布曲线的建立 - 高斯导出误差正态分布

半城伤御伤魂 提交于 2019-11-29 18:34:47
事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。 追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。 1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了! 高斯为此名声大震

极大似然估计

那年仲夏 提交于 2019-11-29 08:29:00
———————————————— 版权声明:本文为CSDN博主「知行流浪」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。 原文链接: https://blog.csdn.net/zengxiantao1994/article/details/72787849 极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下: 贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。 我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少? 从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。 设: 由已知可得: 男性和女性穿凉鞋相互独立,所以 (若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要)。

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

佐手、 提交于 2019-11-29 04:35:07
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然,本文解释的MLE和MAP都是统计领域的问题

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

╄→尐↘猪︶ㄣ 提交于 2019-11-29 04:34:43
转载声明:本文为转载文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 原文作者: nebulaf91 原文原始地址: http://blog.csdn.net/u011508640/article/details/72815981 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中

交叉熵和极大似然

无人久伴 提交于 2019-11-28 04:02:52
交叉熵是用来计算两个函数或者概率之间的距离,计算的方式也是使用的KL Divergence 理解交叉熵作为神经网络的损失函数的意义: 交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近,即拟合的更好。 CrossEntropy=H(p)+DKL(p∣∣q)CrossEntropy=H(p)+DKL(p∣∣q) Cross Entropy= H(p)+DKL(p||q)CrossEntropy=H(p)+DKL(p∣∣q) 当p分布是已知,则熵是常量;于是交叉熵和KL散度则是等价的。 最小化KL散度和模型采用最大似然估计进行参数估计又是一致的。(可以从公式推导上证明) 这也是很多模型又采用最大似然估计作为损失函数的原因。 来源: https://www.cnblogs.com/ivyharding/p/11391008.html

【论文阅读】Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization

﹥>﹥吖頭↗ 提交于 2019-11-28 00:50:16
本文在参考一些网上资料的基础上,对该论文的思想和重要步骤作出了总结,也加入了在与身边朋友讨论的过程中对文章更细致深入的理解的内容,同时包含了自己在阅读中发现需要了解的背景知识的简单介绍。 目录 概述 背景知识 先验 后验 似然估计 正则化 KL散度 EM算法 log-linear model对数线性模型 Posterior Regularization后验正则化 模型 特征设计 训练 目标 编码 解码 结果 结论 参考资料 概述 这篇搜狗联合清华信息科学与技术国家实验室进行研究、入选ACL 2017的论文提出了将 先验知识 集成到NMT中并保持模型结构不变的一般框架。使用的主要方法是 后验正则化 ,将先验知识表征为对数线性模型中的特征,用来指导NMT的过程。 论文希望解决的问题就是如何将多个重叠的、任意的先验知识集成到神经网络中。一方面,神经网络中用来表示翻译过程中涉及的语言结构的向量的值是连续的。虽然这些向量的表示确实隐含着翻译规则,但很难从语言学的角度来解释。作者对此提出了 四种特征设计方式 对语言学中的先验知识进行编码; 另一方面,在将先验知识编码成翻译规则时,一般都用离散的表达形式(比如词典),将这种离散形式转化为神经网络所要求的连续表示是一件困难的事情。因此作者采用了 对数线性模型 ,代替原来的离散集合表示。 论文链接 背景知识 在了解论文主要工作之前

交叉熵似然函数

大城市里の小女人 提交于 2019-11-27 19:21:06
交叉熵似然函数 转载自: https://zhuanlan.zhihu.com/p/70804197 信息熵 信息熵是消除不确定性所需信息量的度量 信息熵是信息的不确定程度 信息熵越小,信息越确定 \(信息熵=\sum\limits_{x=1}^n(信息x发生的概率\times{验证信息x所需信息量})\) 今年中国取消高考了,这句话我们很不确定(甚至心里还觉得这TM是扯淡),那我们就要去查证了,这样就需要很多信息量(去查证);反之如果说今年正常高考,大家回想:这很正常啊,不怎么需要查证,这样需要的信息量就很小。 根据信息的 真实分布 ,我们能够找到一个最优策略,以 最小的代价消除系统的不确定性 ,即 最小信息熵 概率越低,需要越多的信息去验证,所以 验证真假需要的信息量和概率成反比 。我们需要用数学表达式把它描述出来,推导: 考虑一个离散的随机变量 ,已知信息的量度依赖于概率分布 ,因此我们想要寻找一个函数 ,它是概率 的单调减函数(因为 \(p(x)\) 越大,所需要的信息量就越小),表示 信息量 怎么寻找呢?如果我们有两个不相关的事件 和 ,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即: 因为两个事件是 独立不相关 的,因此 根据这两个关系,很容易看出 一定与 的 对数 有关。 由对数的运算法则可知: 因此,我们有

数据挖掘经典算法概述以及详解链接

不想你离开。 提交于 2019-11-26 21:47:42
po主最近在学习数据挖掘方面相关算法,今天就在这里总结一下数据挖掘领域的经典算法,同时提供每个算法的详解链接,就当做在这里温习吧。对于熟悉的算法我会有较多的描述,不熟悉的算法可能描述较少,以免误导,但是会贴出学习的链接。由于本人也是资历尚浅,必然有错误的地方,也希望大家能够指出来,我也会改正的,谢谢大家。 数据挖掘方面的算法,主要可以用作 分类,聚类,关联规则,信息检索,决策树,回归分析 等。他们的界限并不是特别的明显,常常有交叉,如聚类算法在一定程度上也是一种分类算法。分类算法比较成熟,并且分支也较多。 这里先介绍两个概念: 监督学习 与 非监督学习 。通俗一点说,如果我们提前设置一些标签,然后对于每个待分类项根据一定规则分类到某些标签,这就是 监督学习 。如果我们提前不知道标签,而是通过一定的统计手段将一定量的数据,分成一个个类别,这就是 非监督学习 ,通常用作“聚类”(不绝对)。当然监督学习常用作分类学习,也可用作回归分析等。 1.K-Means算法 K-Means算法是一种常用的 非监督学习 聚类算法,也常用在图像检索领域,如K-Means+BoF算法。它的作用就是我们可以在不知道有哪些类别的情况下,将数据以K个 类心 ,聚成K个 聚类 。 通常我们会先确定一个相异度度量方法,常用的相异度有, 欧氏距离,曼哈顿距离,马氏距离,余弦距离 等。根据两个数据之间的“距离