常见概率分布知多少——13个常用概率分布的介绍

时光毁灭记忆、已成空白 提交于 2020-10-28 10:55:41

1、伯努利分布

    这是一个二元变量x∈{0,1}的分布,例如投硬币的结果。它由一个连续参数μ∈[0,1]控制,这个参数表示x=1的概率。

    伯努利分布是二项分布对单一观测的特殊情况。它对于μ的共轭先验是Beta分布。


2、Beta分布

    这是一个连续变量μ∈[0,1]的分布,经常用于表示某些二元事件的概率。它有两个参数a和b。为了保证分布能够归一化,我们要求a>0并且b>0。

    Beta分布是伯努利分布的共轭先验,其中a和b可以分别表示为x=1和x=0的观测的有效先验数量。如果a≥1且b≥1,那么它的概率密度是有限值,否者在μ=0和μ=1处会有奇异值。对于a=b=1的情形,它就简化成了均匀分布。Beta分布是K状态狄利克雷分布在K=2时的特殊情况。


3、二项分布

    二项分布给出了来自伯努利分布的N个样本中观察到m次x=1的概率。伯努利分布中,观察到x=1的概率时    μ∈[0,1]。

    表示从N个完全相同的物体中选择m个物体的总方案数量。这里m!表示乘积m×(m-1)×...×2×1。二项分布中N=1这一特殊情形被称为伯努利分布,对于大的N的值,二项分布近似高斯分布。μ的共轭先验是Beat分布。


4、狄利克雷分布

    狄利克雷分布是K个随机变量0≤μk≤1的多变量分布,其中k=1,...,K,并且满足下面的限制

我们有

    这里的φ(x)被称为digamma函数,为了保证概率归一化,参数αk满足限制αk>0。

    狄利克雷分布是多项式分布的共轭先验,是Beta分布的推广。这种情况下,参数αk是K维二元观察向量x对应值的有效观测数量。和Beta分布相同,如果对于所有的k都有αk>=0,那么狄利克雷分布在空间中所有位置的密度均为有限值。


5、Gamma分布

    Gamma分布是正随机变量τ的概率分布,参数为a和b,满足限制a>0和b>0,保证概率分布是归一化的。

其中φ(x)被称为digamma函数。Gamma分布式单变量高斯分布的精度(方差的倒数)的共轭先验。当时,概率密度处处为有限值,a=1这一特殊情况被称为指数分布。


6、高斯分布

高斯分布是连续变量中最广泛使用的概率分布,也被称为正态分布。在一元变量x∈(负无穷大,正无穷大)的情况下,它由两个参数控制:均值μ和方差σ。

    方差的倒数τ被称为精度,方差的平方根σ被称为标准差。μ的共轭先验是高斯分布,τ的共轭先验是Gamma分布。如果μ和τ都未知,那么它们的联合共轭先验是高斯-Gamma分布。


    对于一个D维向量x,高斯分布的参数是一个D维均值向量μ和一个D×D的协方差矩阵Σ。协方差矩阵一定是对称的、正定的。

    协方差矩阵的逆矩阵叫做精度矩阵,也是对称的、正定的。根据中心极限定理,随机变量的平均值趋近于高斯分布,并且两个高斯变量之和仍然是高斯。给定方差(或者协方差),高斯分布是最大化熵值的分布。高斯随机变量的任意线性组合仍然是高斯分布。多元高斯分布的变量关于变量的一个子集的边缘分布仍然是高斯分布,类似地,条件分布也是高斯分布。μ的共轭先验仍然是高斯分布,λ的共轭先验是一个Wishart分布,(μ,λ)的共轭先验是高斯-Wishart分布。


    如果我们给定有一个x的边缘高斯分布,以及在给定x的条件下y的条件高斯分布,形式如下:

那么y的边缘分布,以及给定y的条件下x的条件分布分别为:

其中,

如果我们有一个联合高斯分布

并且定义下面的划分:

那么条件概率分布为:

边缘分布为


7、高斯-Gamma分布

这是一元高斯分布的共轭先验,其中均值和精度均未知。这个分布也被称为正态-Gamma分布。它的精度正比于的的高斯分布与λ的Gamma分布的乘积。


8、高斯-Wishart分布

这是多元高斯分布的共轭先验,其中均值和精度均未知。这个分布也被称为正态-Wishart分布。它的精度正比于λ的μ的高斯分布与λ的Wishart分布的乘积。

对于标量x的情况,它等价于高斯-Gamma分布。


9、多项式分布

如果我们把伯努利分布推广到K维二元变量x,分量xk∈{0,1}且Σxk=1,那么由下面的离散分布:

    多项式分布式二项分布对于多元变量的推广,给出了一个具有K个状态的离散变量在总计N次观测中处于状态k的次数mk的分布。

并且

    给出了把N个相同的物体中的个放到箱子k中的方案总数,其中k=1,......,K。其中μk的值给出了随机变量处于k状态的概率,因此必须满足=0<μk<=1且Σxk=1。参数{μk}的共轭先验是狄利克雷分布。


10、学生t分布

    在一元变量的形式下,学生t分布可以通过下列方式获得:拿出一元高斯分布的精度的共轭先验,然后把精度变量积分出来。因此这个分布可以看成无限多个有着相同均值不同方差的高斯分布的混合。

    这里v>0被称为分布的自由度数。的特殊情况被叫做柯西分布。


    对于一个D维变量x,学生t分布将多元高斯的精度矩阵关于共轭Wishart先验积分的结果,形式为:

其中Δ2被定义为马氏距离:

    在极限的情况下,t分布简化为均值,精度的高斯分布。学生t分布提供了对高斯分布泛化的一种形式,这种分布的最大似然参数值对离群点比较鲁棒。


11、均匀分布

    这是连续变量x的一种简单分布。x定义在有限区间[a,b],且b>a:

    如果x服从均匀分布U(x|0,1),那么a+(b-a)x服从均匀分布U(x|a,b)。


12、Von Mises分布

Von Mises分布,也被称为环形正态分布或者环形高斯分布,是一元变量θ∈[0,2Π]的类似高斯的周期分布。

    其中I是零阶第一类Bessel函数。分布的周期是θ∈[0,2Π],因此对于所有的都有θ∈[0,2Π]。在表述这个分布时需要小心,因为简单的期望都要取决于变量的原点的(任意)选择。参数类似于一元高斯分布的均值,也被称为concentration参数,类似于高斯分布的精度(方差的倒数)。对于大的m值,Von Mises分布近似于以为中心的高斯分布。


14、Wishart分布

Wishart分布是多元高斯的精度矩阵的共轭先验。

其中,W是一个D×D对称正定矩阵,φ(x)为digamma函数。参数v被定义为分布的自由度的数量,满足限制,以保证归一化引子中的Gamma函数有着良好的定义。在一维情况下,Wishart分布就变成Gamma分布,参数为

常见分布表


公众号回复【分布】即可获取该文章的PDF文件和代码

参考:

《Python大战机器学习》——数据科学家的第一个小目标

《机器学习实战》

《模式识别与机器学习》

声明:转载请说明出处

下方为小生公众号,还望包容接纳和关注,非常期待与您的美好相遇,让我们以梦为马,砥砺前行。


长按识别二维码关注一下

更多精彩内容可回复关键词

每篇文章的主题即可


本文分享自微信公众号 - AI人工智能初学者(ChaucerG)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!