概率论

通俗理解LDA主题模型

回眸只為那壹抹淺笑 提交于 2020-02-12 04:57:22
通俗理解LDA主题模型 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长( 如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路,则非常easy陷入LDA的细枝末节之中 ),还是由于当中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会 第8期 上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西(但理解了LDA之后。再看沈博主题模型的 PPT 会非常赞)。 直到昨日下午。 机器学习班 第12次课上,邹讲完LDA之后,才真正明确LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后,思路清晰了。知道理解LDA。能够分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA

贝叶斯机器学习路线图

无人久伴 提交于 2020-02-12 00:25:16
这是一份贝叶斯机器学习路线图, 正在不断更新中. 路线图由简短的介绍配以相应的学习资源组成, 读者不一定要按顺序学习, 可以直接定位到自己需要的地方. 很多时候, 我们希望自学某个领域的知识, 学习能力是不差的, 但苦于不知该学哪些, 从何学起, 看什么书/视频好? 各个概念/知识点之间是怎样的联系? 这份路线图是为解决以上问题而生的, 对于学习贝叶斯机器学习应该十分有帮助. 若您发现错漏, 欢迎评论指正! 也希望有更多的人愿意分享自己所在领域的"学习路线图"! (注意: 文中部分资源链接需要科学上网方可打开) 本文目录结构如下: 核心主题 中心问题 参数估计 模型比较 非贝叶斯方法 最大似然 正则化 EM算法 基本推断算法 MAP估计 Gibbs采样 马尔科夫链蒙特卡洛(MCMC) 变分推断(Variational inference) 模型 混合高斯 因子分析 隐马尔科夫模型(HMM) 贝叶斯模型比较 贝叶斯信息准则(Bayesian information criterion) 拉普拉斯近似(Laplace approximation) 进阶主题 模型 逻辑回归(Logistic regression) 贝叶斯网络(Bayesian networks) Latent Dirichlet allocation(LDA) 线性动态系统(Linear dynamical

学习matlab(四)——概率与数理统计

风格不统一 提交于 2020-02-10 20:21:36
概率和数理统计是大学数学的重要内容,无论是在科学研究还是在工程实际中都有着非常广泛的应用。在MATLAB中,提供了专门的统计工具箱Staticstics,该工具箱有几百个专用于求解概率和数理统计问题的函数。本章将详细的介绍随机数的产生,随机变量的概率密度函数和数字特征,以及假设检验、方差分析和统计绘图等。 0.随机数 随机数的产生是概率统计的基础,概率论和数理统计就是对各种样本数据进行分析。在MATLAB中,各种样本数据可以用一些经典的随机分布数来表示。下面对常用的二项分布、均匀分布、指数分布、正态分布等随机数据进行详细的介绍。 <1>二项分布随机分布 在MATLAB中,使用函数binornd()产生二项分布的随机数据。该函数的的调用方式如下:R=binornd(N,P):在该函数中N和P为二项分布的两个参数,返回服从参数为N和P的二项分布随机数。R=binornd(N,P,M):在该函数中参数M指定随机数的个数,与返回结果R同维数。 <2>泊松分布 在MATLAB中,使用函数poissrnd()产生泊松分布的随机数据。该函数的调用方式如下:R=poissrnd(LAMBDA):在该函数中LAMBDA为泊松分布的参数,返回服从参数为LAMBDA的泊松分布随机数,其中R与LAMBDA维数相同。R=poissrnd(LAMBDA,M,N):在该函数中LAMBDA为泊松分布的参数

[回归] 线性回归之解析解的推导过程

穿精又带淫゛_ 提交于 2020-02-07 06:06:24
线性回归 Linear Regression——线性回归 是什么? 是机器学习中有监督机器学习下的一种简单的回归算法。 分为一元线性回归(简单线性回归)和多元线性回归,其中一元线性回归是多元线性回归的一种特殊情况,我们主要讨论多元线性回归 做什么? 回归问题关注的是一个因变量和一个或多个自变量的关系,根据已知的自变量来预测因变量. 如果因变量和自变量之间的关系满足线性关系(自变量的最高幂为一次),那么我们可以用线性回归模型来拟合因变量与自变量之间的关系. 怎么做? 简单线性回归的公式如下: y ^ = a x + b \hat y=ax+b y ^ ​ = a x + b 多元线性回归的公式如下: y ^ = θ T x \hat y= \theta^T x y ^ ​ = θ T x 上式中的 θ \theta θ 为系数矩阵,x为单个多元样本. 由训练集中的样本数据来求得系数矩阵,求解的结果就是线性回归模型,预测样本带入x就能获得预测值 y ^ \hat y y ^ ​ ,求解系数矩阵的具体公式接下来会推导. 推导过程 推导总似然函数 假设线性回归公式为 y ^ = θ x \hat y= \theta x y ^ ​ = θ x . 真实值y与预测值 y ^ \hat y y ^ ​ 之间必然有误差 ϵ = y ^ − y \epsilon=\hat y-y ϵ = y ^

什么是中心极限定理?这里有一份可视化解释

橙三吉。 提交于 2020-02-06 18:08:05
作者: Mike Freeman 编译: Bot 编者按:中心极限定理是概率论中的一组重要定理,它的中心思想是无论是什么分布的数据,当我们从中抽取相互独立的随机样本,且采集的样本足够多时,样本均值的分布将收敛于正态分布。为了帮助更多学生理解这个概念,今天,UW iSchool的教师Mike Freeman制作了一些直观的可视化图像,让不少统计学教授大呼要把它们用在课堂上。 本文旨在尽可能直观地解释统计学基础理论之一——中心极限定理的核心概念。通过下文中的一系列动图,读者应该能真正理解这个定理,并从中汲取应用灵感,把它用于决策树等其他项目。 需要注意的是,这里我们不会介绍具体推理过程,所以它不涉及定理解释。 教科书上的中心极限定理 在看可视化前,我们先来回顾一下统计学课程对中心极限定理的描述。 来源:LthID n&amp;gt;30一般为大样本的分界线 来源:LthID 一个简单的例子 为了降低这个定理的理解门槛,首先我们来举个简单的例子。假设有一个包含100人的团体,他们在某些问题上的意见分布在0-100之间。如果以可视化的方式把他们的意见分数表示在水平轴上,我们可以得到下面这幅图:深色竖线表示所有人意见分数的平均值。 假如你是一名社会科学家,你想知道这个团体的立场特点,并用一些信息,比如上面的“平均意见得分”来描述他们。但可惜的是,由于时间、资金有限,你没法一一询问。这时候

机器学习11:贝叶斯分析

我的未来我决定 提交于 2020-02-06 02:21:46
集成学习 贝叶斯分析 原理 数理统计学处理的信息 总体信息:当前总体样本符合某种分布。比如抛硬币,二项分布。学生的某一科的成绩符合正态分布。 样本信息:通过抽样得到的部分样本的某种分布。 抽样信息=总体信息+样本信息 基于抽样信息进行统计推断的理论和方法称为经典统计学。 先验信息:抽样之前,有关推断问题中未知参数的一些信息,通常来自于经验或历史资料。 基于总体信息+样本信息+先验信息进行统计推断的方法和理论,称为贝叶斯统计学。 贝叶斯定理 贝叶斯定理告诉我们如何交换条件概率中的条件与结果,即如 果已知P(X|H),要求P(H|X),那么可以使用下面的计算方法: 朴素贝叶斯(Naive Bayes) 假设:特征X1,X2,X3……之间都是相互独立的 四个模型 高斯模型 有些特征可能是连续型变量,比如说人的身高,物体的长度,这些特征可以转换成离散型的值,比如如果身高在160cm以下,特征值为1;在160cm和170cm之间,特征值为2;在170cm之上,特征值为3。也可以这样转换,将身高转换为3个特征,分别是f1、f2、f3,如果身高是160cm以下,这三个特征的值分别是1、0、0,若身高在170cm之上,这三个特征的值分别是0、0、1。不过这些方式都不够细腻,高斯模型可以解决这个问题。 词袋模型(Bag of Words) TF-IDF 提取词频 (Term Frequency

概率统计丨陈希孺《概率论与数理统计》思维导图

走远了吗. 提交于 2020-02-04 00:49:49
除了线性代数,概率论(Probability theory)和统计学(Statistics)也是机器学习中常用的数学工具。陈希孺老先生的《概率论与数理统计》在知乎上的评价很高,我在上学期花时间读了一遍,读完的感觉是,本书的概率论部分可读性较强,举了很多例子帮助理解,通俗易懂,阐明了很多原理和联系,如二项分布、泊松分布、超几何分布、几何分布之间的关系。但数理统计部分,更加严谨的概念定义和公理化相对晦涩,让我不易理解。当然,主要原因还是我水平太低。我觉得本书的数理统计部分可以结合其他材料学习。 此外再推荐一下其他的学习资源。 公开课 可汗学院公开课:统计学 书 《概率导论》 《概率论与数理统计》 《深入浅出统计学》 讲义 CS229概率论讲义 来源: https://www.cnblogs.com/vincent1997/p/12258176.html

随机过程学习笔记0

…衆ロ難τιáo~ 提交于 2020-02-03 00:04:32
随机过程的定义 随机变量:从样本空间到实数域的当时的映射; 样本空间:随机试验所有可能的结果; 在之前的概率论中,无论是中心极限定理还是大数定理,研究的都是一些相互独立的随机变量之间的关系和他们的统计特性。而随机过程所研究的是一族随机变量,且相互之间不是独立的。 对定义的理解: 随机变量族:随t变化的一族(无穷个)随机变量,且随机变量之间彼此有一定的关系,这个关系体现在t变化时,他们之间存在关系,可能时线性的,也可能是非线性的,即一族相互关联的随机变量构成了一个随机过程。例4中质点在直线上的随机游走,小虫在直线上的固定跳动,奇数偶数的讨论,充分说明了随机变量之间的关联性。 T:称为指标集或参数集,一般表示时间或空间;T是一个离散的可列集时,随机过程叫随机序列。 随机过程的描述:X(t,w)或 X(t),w表示一个样本点。 固定t,X(t,w)就是一个定义在样本空间Ω上的函数,即为一随机变量,取遍所有t,就是一族有关联的随机变量; 固定w,X(t,w)是一个关于参数t的确定函数,叫样本函数。即表示固定w,做了一次试验,取遍过程中的t,做了n次实验,也叫随机过程的一次实现,对随机过程观测了一遍。所有样本函数的集合确定了一个随机过程,如果能获得所有的样本函数,则随机过程的统计特性确定,但显然很多时候是不现实的。因此需要随机过程的数字特征和统计特性描述。 随机过程的分类 状态空间

概率论——超几何随机变量

╄→尐↘猪︶ㄣ 提交于 2020-01-30 13:20:14
文章目录 超几何随机变量 1 定义 2 超几何随机变量的近似 3 参数为 ( n , N , m ) (n,N,m) ( n , N , m ) 的超几何随机变量的期望和方差 超几何随机变量 1 定义   假定一个袋子里面有 N N N 个球,其中有 m m m 个白球, N − m N-m N − m 个黑球,现在随机地从袋子中 不放回 地取出 n n n 个球,令随机变量 X X X 表示取出来的白球数,则: P { X = i } = ( m i ) ( N − m n − i ) ( N n ) i = 0 , 1 , ⋯   , n P\{X = i\} = \cfrac{\begin{pmatrix}m\\i\end{pmatrix}\begin{pmatrix}N-m\\n-i\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}}\ \ \ \ \ \ \ i = 0,1,\cdots,n P { X = i } = ( N n ​ ) ( m i ​ ) ( N − m n − i ​ ) ​ i = 0 , 1 , ⋯ , n 一个随机变量 X X X 如果其概率质量函数形如上式,其中 N , m , n N,m,n N , m , n 值给定,那么就称 X X X 为超几何随机变量 。   注意, i i i

人工智能数学基础之概率论

大兔子大兔子 提交于 2020-01-30 09:09:51
概率论 基础概率 随机试验 试验是指为了观察某事的结果或某物的性能而从事的某种活动。在概率论中,一个试验如果具有以下3个特点: 可重复性:在相同条件下可以重复进行 可观察性:每次实现的可能结果不止一个,并且能事先明确实验的所有可能结果 不确定性:一次试验之前,不能预知会出现哪一个结果 这样的试验是一个 随机试验 ,简称为 试验 样本点和样本空间 每次试验的每一个结果成为 基本事件 ,也称作 样本点 ,记作 w 1 , w 2 , ⋯ w_1,w_2,\cdots w 1 ​ , w 2 ​ , ⋯ , 全部样本点的集合成为 样本空间 ,记作 Ω \Omega Ω ,则 Ω = { w 1 , w 2 , ⋯   } \Omega=\{w_1,w_2,\cdots\} Ω = { w 1 ​ , w 2 ​ , ⋯ } 假设掷一颗均匀骰子,观察出现的点数。这是一个随机试验,样本空间 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega=\{1,2,3,4,5,6\} Ω = { 1 , 2 , 3 , 4 , 5 , 6 } 随机事件 基本事件是不可再分解的、最基本的事件,其他事件均可由它们复合而成,由基本事件复合而成的事件称为 随机事件 或简称为 事件 。 常用大写字母 A , B , C A,B,C A , B , C 等表示事件。不如 A = { 出 现 的