概率分布

贝叶斯统计概要(待修改)

£可爱£侵袭症+ 提交于 2019-12-05 03:25:02
一:贝叶斯的哲学 现在考虑一个最最基本的问题,到底什么是概率?当然概率已经是在数学上严格的,良好定义的,这要归功于30年代大数学家A.N.Kolmogrov的概率论公理化。但是数学上的概率和现实世界到底是有怎样的关系?我们在用数学理论--------概率论解决实际问题的时候,又应该用什么样的观点呢?这真差不多是个哲学问题。这个问题其实必须得好好考察一下,下面我们看看最基本的两种哲学观,分别来自频率派和贝叶斯派, 我们这里的 “哲学” 指的是数学研究中朴素的哲学观念,而不是很严肃的哲学讨论。 1.1. 经典的统计推断(频率派)的哲学 : 1)概率指的是频率的极限,概率是真实世界的客观性质(objective property) 2)概率分布的参数都是固定的,通常情况下未知的常数,不存在"参数$\theta$满足XXX的概率是X"这种概念。 3)统计方法应该保证具有良好的极限频率性质,例如95%区间估计应该保证当$N$足够大的时候,我们选取$N$个样本集$S_{1}$, $S_{2}$,...,$S_{N}$所计算出来的相应的区间$I_{1}$,$I_{2}$,...,$I_{N}$中将有至少95%*N个区间包含我们需要估计的统计量的真实值。 我们从上看到,经典频率派的统计是非常具有 唯物主义(materialism) 色彩的,而贝叶斯的哲学大不一样,据考证贝叶斯是英格兰的一名牧师

使用高斯混合模型建立更精确的聚类

笑着哭i 提交于 2019-12-04 16:19:30
介绍 我很喜欢研究无监督学习问题。它们为监督学习问题提供了一个完全不同的挑战,用我拥有的数据进行实验的发挥空间要比监督学习大得多。毫无疑问,机器学习领域的大多数发展和突破都发生在无监督学习领域。 无监督学习中最流行的技术之一就是聚类。这是一个我们通常在机器学习的早期学习的概念,它很容易理解。我相信你曾经遇到过,甚至参与过顾客细分、购物篮分析等项目。 但问题是聚类有很多方面。它并不局限于我们之前学过的基本算法。它是一种强大的无监督学习技术,我们可以在现实世界中准确地使用它。 > 高斯混合模型就是我想在本文中讨论的一种聚类算法。 想预测一下你最喜欢的产品的销售情况吗?或许你想通过不同客户群体的视角来理解客户流失。无论用什么方法,你都会发现高斯混合模型非常有用。 在本文中,我们将采用自下而上的方法。因此,我们首先来看一下聚类的基础知识,包括快速回顾一下k-means算法。然后,我们将深入讨论高斯混合模型的概念,并在Python中实现它们。 目录 聚类简介 k-means聚类简介 k-means聚类的缺点 介绍高斯混合模型 高斯分布 期望最大化EM算法 高斯混合模型的期望最大化 在Python中实现用于聚类的高斯混合模型 聚类简介 在我们开始讨论高斯混合模型的实质内容之前,让我们快速更新一些基本概念。 注意:如果你已经熟悉了聚类背后的思想以及k-means聚类算法的工作原理

L0、L1、L2范数正则化

无人久伴 提交于 2019-12-04 10:46:46
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可全面了解LR): (1). https://zhuanlan.zhihu.com/p/74874291 (2). 逻辑回归与交叉熵 (3). https://www.cnblogs.com/pinard/p/6029432.html (4). https://zhuanlan.zhihu.com/p/76563562 (5). https://www.cnblogs.com/ModifyRong/p/7739955.html 一、逻辑回归介绍   逻辑回归(Logistic Regression)是一种广义线性回归。线性回归解决的是回归问题,预测值是实数范围,逻辑回归则相反,解决的是分类问题,预测值是[0,1]范围。所以逻辑回归名为回归,实为分类。接下来让我们用一句话来概括逻辑回归(LR): 逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 这句话包含了五点,接下来一一介绍: 逻辑回归的假设 逻辑回归的损失函数 逻辑回归的求解方法 逻辑回归的目的 逻辑回归如何分类 二、逻辑回归的假设 任何的模型都是有自己的假设,在这个假设下模型才是适用的。 逻辑回归的第一个基本假设是假设数据服从伯努利分布。 伯努利分布:是一个离散型概率分布,若成功,则随机变量取值1;若失败

10 -概率分布/密度函数(概率论与数理统计学习笔记)

自闭症网瘾萝莉.ら 提交于 2019-12-04 01:20:25
目录 分布函数(离散\连续) 性质 离散型分布函数 例题 连续性分布函数 分布函数(离散\连续) 如何简单理解概率分布函数和概率密度函数 定义 : 设 \(X\) 是一个随机变量, \(x\) 是任意实数,函数 \(f(x) = P\{X\leq x\}\) 称为X的分布函数 。 也叫随机变量 \(X\) 不超过 \(x\) 的概率 分布函数也称为概率累计函数 性质 \(0\leq F(x) \leq 1\) \(F(X)\) 是不减函数(不是减函数). 离散型分布函数 例题 连续性分布函数 设:概率分布函数为: \(F(x)\) 概率密度函数为: \(f(x)\) 二者的关系为: $f(x) = dF(x)/dx $ 即:密度函数f 为分布函数 F 的一阶导数。或者分布函数为密度函数的积分。 来源: https://www.cnblogs.com/GGTomato/p/11826710.html

浅谈GAN生成对抗网络

*爱你&永不变心* 提交于 2019-12-03 19:16:02
浅谈GAN——生成对抗网络 重要引用: 深度学习新星:GAN的基本原理、应用和走向 | 硬创公开课 ; 生成对抗网络(GAN)相比传统训练方法有什么优势? ; 通过拳击学习生成对抗网络(GAN)的基本原理 最近总是听老板提起对抗学习,好奇之心,在网上搜集了一些相关资料,整理如下,大部分摘自重要引用的内容。 近年来,基于数据而习得“特征”的深度学习技术受到狂热追捧,而其中GAN模型训练方法更加具有激进意味:它生成数据本身。 GAN是“生成对抗网络”(Generative Adversarial Networks)的简称,由2014年还在蒙特利尔读博士的Ian Goodfellow引入深度学习领域。2016年,GAN热潮席卷AI领域顶级会议,从ICLR到NIPS,大量高质量论文被发表和探讨。Yann LeCun曾评价GAN是“20年来机器学习领域最酷的想法”。 在GAN这片新兴沃土,除了Ian Goodfellow所在的OpenAI在火力全开,Facebook的人工智能实验室也在这一领域马不停蹄深耕,而苹果近日曝出的首篇AI论文,就是基于GANs的变种“SimGAN”。从学术界到工业界,GANs席卷而来。 GANs是深度学习领域比较重要的一个模型,也是人工智能研究的一个重要工具。我们现在所追求的人工智能,一个很重要的特性就是能够像我们人类一样,理解周围复杂的世界

概率分布汇总

此生再无相见时 提交于 2019-12-03 07:11:24
首先我们需要搞清楚几个概念:概率函数、概率分布、概率密度 我这里只做简单阐述,意在理解概念,可能不严谨。 我们知道变量可分为离散随机变量和连续随机变量; 概率函数 :随机变量取某个值的概率 pi=P(X=ai)(i=1,2,3,4,5,6);以骰子为例,每次摇骰子取值为 1-6,取每个数字的概率为 1/6,这就是离散概率函数; pi=P(X<170);以身高为例,小于 170 的概率,这就是连续概率函数 描述了取某个值或者某一个区间的概率 概率分布 :也叫累积概率函数,随机变量取某些值的概率,也就是取这些值的概率的累加和 pi=P(X=[1, 2]) pi=P(X<170 and X>165) 描述了取某些值或某些区间的概率 概率密度 :它 只针对连续型随机变量 ,连续型随机变量的概率函数也叫概率密度 数学上用如下公式表示概率密度 可以看到 X 的取值是连续的,P 是一个积分 F(x) 左图表示连续型随机变量的概率分布;f(x) 右图表示连续型随机变量的概率密度; f(x) 是 F(x) 的导数 均匀分布 应该说是最简单的分布,它是指在一个取值范围内取到每个值的概率相等; 对于离散型随机变量, 概率函数 为 P(X)=1/a-b  a<b 代表取值范围 对于连续型随机变量,就是可以等概率地取 a b 之间的任一个数 期望:u=(a+b)/2;方差:var=(a-b) 2 /12

Numpy-np.random.normal()正态分布

怎甘沉沦 提交于 2019-12-03 05:02:52
X ~ :随机变量X的取值 和其对应的概率值P(X = ) 满足正态分布(高斯函数) 很多 随机现象 可以用正态分布描述或者近似描述 某些 概率分布 可以用正态分布近似计算 正态分布 (又称高斯分布)的概率密度函数 numpy中 numpy.random.normal( loc= 0.0 , scale= 1.0 , size= None ) 参数的意义为:    loc:float   概率分布的均值,对应着整个分布的中心center    scale:float   概率分布的标准差,对应于分布的宽度,scale越大越矮胖,scale越小,越瘦高    size:int or tuple of ints   输出的shape,默认为None,只输出一个值   我们更经常会用到np.random.randn(size)所谓标准正态分布(μ=0, σ=1),对应于np.random.normal(loc=0, scale=1, size) 来源: https://www.cnblogs.com/cpg123/p/11779117.html

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):

概率分布与马尔科夫链的关系讨论

匿名 (未验证) 提交于 2019-12-03 00:34:01
概率分布与马尔科夫链的关系讨论2018年6月24日 22:38Copyright ? 2018 Lucas Yu 小编原创,任何形式传播(转载或复制),请注明出处,谢谢! 摘要: 本文主要讨论使用一个简单的例子,采用实证的方式来讨论一般概率分布与马尔科夫链的关系,将二者联系起来。读者有一定概率论和随机过程基础会对理解有帮助。涉及内容包括:伯努利分布、伯努利过程以及马尔科夫链等。 本文的研究方法步骤:先确定研究单元(研究对象,它决定了研究的粒度和层级),然后才去讨论其相关性质。对象域确定很重要,以便明确目标,就像物体运动的研究不会去讨论物体的化学性质一样;论证方式采用层层递进论证(由粒度决定),并争取从多角度讨论。 素材:先上一段代码,供后面使用,使用时解释。 基本概念 伯努利分布:又名两点分布或者0-1分布,是一个离散型概率分布。若伯努利试验成功,则伯努利随机变量取值为1;若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为p,则失败概率为 1 ? p。 (baidu 2018) 伯努利过程:是一个由有限个或无限个的独立随机变量 X1, X2, X3 ,..., 所组成的离散时间随机过程,其中 X1, X2, X3 ,..., 满足如下条件: 对每个 i, Xi 等于 0 或 1; 对每个 i, Xi = 1 的概率等于 p. 换言之,伯努利过程是一列独立同分布的伯努利试验

连续型概率分布――正态分布(二维)

匿名 (未验证) 提交于 2019-12-03 00:19:01
1. 定义:设二维连续型随机变量(X,Y)的联合概率密度为 其中μ1,μ2,σ1,σ2,ρ均为常数,且σ1>0, σ2>0, |ρ|<1则称(X,Y)服从参数为μ1,μ2,σ1,σ2,ρ的二维正态分布。 二维正态分布的密度函数如下图 显然f(x,y)>=0 可以验证 2. 关于二维正态分布,需掌握如下结论: (1)二维正态分布的两个边缘分布均为一维正态分布。 证明:略 (2)若(X,Y)服从二维正态分布,则X与Y相互独立的充要条件为X与Y的相关系数ρ等于零(即不相关)。 独立和不相关的关系:独立不一定相关,不相关不一定独立。 但是,对于二维正态分布:独立=不相关 答案:略 文章来源: 连续型概率分布――正态分布(二维)