概率密度函数

概率密度函数

烂漫一生 提交于 2020-02-22 03:09:52
一.二项分布 x=0:10; y=binopdf(x,10,0.4); plot(x,y,'*') 二.卡方分布 x=0:0.3:10; y=chi2pdf(x,4); plot(x,y) 三.非中心卡方分布 x=(0:0.2:10)'; p1=ncx2pdf(x,3,2); p=chi2pdf(x,3); plot(x,p,'-',x,p1,'--') 四.指数分布 x=0:0.2:10; y=exppdf(x,3); plot(x,y,'-') 五.正态分布 x=-3:0.2:3; y=normpdf(x,0,1); plot(x,y,'--') 六.对数正态分布 x=(10:100:125010)'; y=lognpdf(x,log(20000),2.0);plot(x,y) set(gca,'xtick',[0 20000 50000 90000 140000]) set(gca,'xticklabel',str2mat('0','$20000','$50000','$90000','$140000'))代码片 七.F分布 x=0:0.02:10; y=fpdf(x,5,4); plot(x,y) 八.非中心F分布 x=0:0.02:10.02; p1=ncfpdf(x,4,20,5); p=fpdf(x,4,20); plot(x,p,'-',x,p1,'--') 九

通俗理解LDA主题模型

回眸只為那壹抹淺笑 提交于 2020-02-12 04:57:22
通俗理解LDA主题模型 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长( 如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路,则非常easy陷入LDA的细枝末节之中 ),还是由于当中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会 第8期 上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西(但理解了LDA之后。再看沈博主题模型的 PPT 会非常赞)。 直到昨日下午。 机器学习班 第12次课上,邹讲完LDA之后,才真正明确LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后,思路清晰了。知道理解LDA。能够分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA

核密度分析(KDE)原理总结

社会主义新天地 提交于 2020-01-25 00:56:04
粗浅的说,核密度分析的目的是获得能够近似表示数据分布的密度函数的每一点的估计值,从而表示出数据的分布情况。 从频率直方图开始 频率直方图( frequency histogram )亦称频率分布直方图,是统计学中表示频率分布的图形。在直角坐标系中,用横轴表示随机变量的取值,横轴上的每个小区间对应一个组的组距,作为小矩形的底边;纵轴表示频率与组距的比值,并用它作小矩形的高,以这种小矩形构成的一组图称为频率直方图。 一个很生动的图 注:图片来自 [维基百科] 频率直方图的特点是每一个小矩形的面积表示落入该小区间的频率,所以纵轴表示: 频 率 组 距 \frac{频率}{组距} 组 距 频 率 ​ 对应于上图,就是说彩色矩形的面积之和为1。 然后,我们运用微分的思想,使等分区间增加,于是组距取的愈来愈小,这样以来,矩形宽度越来越小,于是我们可以自然的想到,在极限情况下它就会变成一条线,频率直方图的阶梯型状就将逼近于概率密度曲线,能近似的反映了概率密度曲线的大致形状。 概率密度函数 现在我们来到了概率密度函数,概率密度函数用于描述概率密度曲线,上文已经说到概率密度曲线其实就是频率直方图的等分区间趋于极限的情况。 所以随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。 我们来看一个正态分布的概率密度曲线图示。 很明显曲线下方的面积之和也就是 ∫ − ∞ + ∞ f (

概率论与数理统计(一)

南楼画角 提交于 2020-01-06 23:17:53
还不会的地方: 大数定律,第六章, 3,4章。 连续型函数的概率密度函数 离散型的比较好求,直接带值就可以,重点是连续型的。函数的概率密度函数,就是告诉你X的分布,让你求Y=g(X)的分布。 公式法求一维概率密度函数 首先根据x的区间求出y的区间, 然后根据y=g(x)求出其反函数x=h(y)和x的导数。 把x=h(y)带到X的概率密度函数里边,然后再乘一个导数的绝对值,就是Y的概率密度函数。 不过用公式法必须满足y=g(x)是处处可导的单调函数,如果不是的话,要根据定义去求。 卷积公式求二维概率密度函数 首先根据Z=f(X,Y)用x和z表示y,然后求一下y关于z的偏导。 首先一个负无穷到正无穷的积分,然后是概率密度函数,用z和 x替换y,然后乘一个偏导的绝对值,这个积分自然是关于x积分。 随机变量的数字特征 概率论的本质是研究随机变量,那么怎样研究随机变量呢? 一个方面就是随机变量的数字特征:期望,方差,协方差。 方差 怎样求方差呢?一个是根据他的定义:Dx=E(X-E(X)) 2 。就是每一个值与均值的差的平方,求期望。遇到一些函数的方差,就用方差的性质: D( C )=0 D(aX+bY=c)=a 2 X+b 2 Y;条件是X和Y要相互独立。 协方差与相关系数 定义:(X-Ex)(Y-Ey)的均值,相关系数是协方差的基础上除以一个根号下DxDy。 来源: CSDN 作者:

数学基础 | (3) cs229概率论基础

陌路散爱 提交于 2019-12-09 20:52:56
目录 1. 概率的基本要素 2. 随机变量 3. 两个随机变量 4. 多个随机变量 1. 概率的基本要素 为了定义集合上的概率,我们需要一些基本元素: 样本空间 :随机实验的所有结果的集合(所有样本点的集合)。在这里,每个结果(样本点) 可以被认为是实验结束时现实世界状态的完整描述。 事件集(事件空间) F:事件 ,事件A是 的子集,即 是一个实验可能结果的集合(包含一些样本点)。 F需要满足以下三个条件: 概率(度量)P:函数P是一个 (事件集到实数集的映射),满足: 以上三条性质被称为 概率公理 。 例子 性质 条件概率与独立性 2. 随机变量 考虑一个实验,我们翻转 10 枚硬币,我们想知道正面硬币的数量。这里,样本空间 的元素是长度为 10 的序列。例如,我们可能有: 然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们 10 次投掷中出现的正面数。在某些技术条件下,这些函数被称为 随机变量 。 更正式地说,随机变量X是一个 (样本空间/样本集到实数集的映射)的函数。通常,我们将使用大写字母 或更简单的X(其中隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母x来表示随机变量的值。 例子 在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有 10 枚,那么 只能取有限数量的值,因此它被称为

直方图均衡基本原理及Python实现

余生长醉 提交于 2019-12-02 21:25:49
1. 基本原理 通过一个变换,将输入图像的灰度级转换为`均匀分布`,变换后的灰度级的概率密度函数为 Ps(s)=1L−1Ps(s)=1L−1 直方图均衡的变换为 s=T(r)=(L−1)∫r0Pr(c)dcs=T(r)=(L−1)∫0rPr(c)dc ss为变换后的灰度级,rr为变换前的灰度级 Pr(r)Pr(r)为变换前的概率密度函数 2. 测试结果 图源自skimage 3.代码 [url=] [/url] 1 import numpy as np 2 3 def hist_equalization(input_image): 4 ''' 5 直方图均衡(适用于灰度图) 6 :param input_image: 原图像 7 :return: 均衡后的图像 8 ''' 9 output_imgae = np.copy(input_image) # 输出图像,初始化为输入 10 11 input_image_cp = np.copy(input_image) # 输入图像的副本 12 13 m, n = input_image_cp.shape # 输入图像的尺寸(行、列) 14 15 pixels_total_num = m * n # 输入图像的像素点总数 16 17 input_image_grayscale_P = [] # 输入图像中各灰度级出现的概率

【转】高斯混合模型的终极理解

妖精的绣舞 提交于 2019-12-02 19:47:17
高斯混合模型GMM是一个非常基础并且应用很广的模型。对于它的透彻理解非常重要。网上的关于GMM的大多资料介绍都是大段公式,而且符号表述不太清楚,或者文笔非常生硬。本文尝试用通俗的语言全面介绍一下GMM,不足之处还望各位指正。 首先给出GMM的定义 这里引用李航老师《统计学习方法》上的定义,如下图: 定义很好理解,高斯混合模型是一种混合模型,混合的基本分布是高斯分布而已。 第一个细节:为什么系数之和为0? PRML上给出过一张图: 这图显示了拥有三个高斯分量的一个维度的GMM是如何由其高斯分量叠加而成。这张图曾经一度对我理解GMM造成了困扰。因为如果是这样的话,那么这三个高斯分量的系数应该都是1,这样系数之和便为3,才会有这样直接叠加的效果。而这显然不符合GMM的定义。因此,这张图只是在形式上展现了GMM的生成原理而并不精确。 那么,为什么GMM的各个高斯分量的系数之和必须为1呢? 其实答案很简单,我们所谓的GMM的定义本质上是一个概率密度函数。而概率密度函数在其作用域内的积分之和必然为1。GMM整体的概率密度函数是由若干个高斯分量的概率密度函数线性叠加而成的,而每一个高斯分量的概率密度函数的积分必然也是1,所以,要想GMM整体的概率密度积分为1,就必须对每一个高斯分量赋予一个其值不大于1的权重,并且权重之和为1。 第二个细节:求解GMM参数为什么需要用EM算法 总所周知

统计-stats

为君一笑 提交于 2019-11-29 02:04:44
统计-stats SciPy的stats模块包含了多种概率分布的随机变量 [1] ,随机变量分为连续和离散两种。所有的连续随机变量都是rv_continuous的派生类的对象,而所有的离散随机变量都是rv_discrete的派生类的对象。 Footnotes [1] 本节中的随机变量是指概率论中的概念,不是Python中的变量 连续和离散概率分布 可以使用下面的语句获得stats模块中所有的连续随机变量: >>> from scipy import stats >>> [k for k,v in stats.__dict__.items() if isinstance(v, stats.rv_continuous)] ['genhalflogistic','triang','rayleigh','betaprime', ...] 连续随机变量对象都有如下方法: rvs:对随机变量进行随机取值,可以通过size参数指定输出的数组的大小。 pdf:随机变量的概率密度函数。 cdf:随机变量的累积分布函数,它是概率密度函数的积分。 sf:随机变量的生存函数,它的值是1-cdf(t)。 ppf:累积分布函数的反函数。 stat:计算随机变量的期望值和方差。 fit:对一组随机取样进行拟合,找出最适合取样数据的概率密度函数的系数。 03-scipy/scipy_stats.py 概率密度函数

直方图均衡基本原理及Python实现

ぐ巨炮叔叔 提交于 2019-11-26 12:07:02
1. 基本原理 通过一个变换,将输入图像的灰度级转换为`均匀分布`,变换后的灰度级的概率密度函数为 $$P_s(s) = \frac{1}{L-1}$$ 直方图均衡的变换为 $$s = T(r) = (L-1)\int_0^r {P_r(c)} \,{\rm d}c $$ $s$为变换后的灰度级,$r$为变换前的灰度级 $P_r(r)$为变换前的概率密度函数 2. 测试结果 图源自skimage 3.代码 1 import numpy as np 2 3 def hist_equalization(input_image): 4 ''' 5 直方图均衡(适用于灰度图) 6 :param input_image: 原图像 7 :return: 均衡后的图像 8 ''' 9 output_imgae = np.copy(input_image) # 输出图像,初始化为输入 10 11 input_image_cp = np.copy(input_image) # 输入图像的副本 12 13 m, n = input_image_cp.shape # 输入图像的尺寸(行、列) 14 15 pixels_total_num = m * n # 输入图像的像素点总数 16 17 input_image_grayscale_P = [] # 输入图像中各灰度级出现的概率,亦即输入图像直方图