beta分布 | 易学教程

通俗理解LDA主题模型

阅读更多关于通俗理解LDA主题模型

通俗理解LDA主题模型 0 前言印象中，最開始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打印过一次，但不知是由于这篇文档的前序铺垫太长（如今才意识到这些“铺垫”都是深刻理解LDA 的基础，但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路，则非常easy陷入LDA的细枝末节之中），还是由于当中的数学推导细节太多，导致一直没有完整看完过。 2013年12月，在我组织的Machine Learning读书会第8期上，@夏粉_百度讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型，当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西（但理解了LDA之后。再看沈博主题模型的 PPT 会非常赞）。直到昨日下午。机器学习班第12次课上，邹讲完LDA之后，才真正明确LDA原来是那么一个东东！上完课后，趁热打铁，再次看LDA数学八卦，发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后，思路清晰了。知道理解LDA。能够分为下述5个步骤：一个函数：gamma函数四个分布：二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念：共轭先验和贝叶斯框架两个模型：pLSA

Jordan Lecture Note-4: Linear & Ridge Regression

阅读更多关于 Jordan Lecture Note-4: Linear & Ridge Regression

Linear & Ridge Regression 对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y_i\in\mathbb{R}$。我们采用以下矩阵来记上述数据： \begin{equation}\mathbf{X}=\left[\begin{array}& x_1^\prime\\ x_2^\prime\\\vdots\\ x_n^\prime\end{array}\right]\quad y=\left(\begin{array}&y_1\\y_2\\\vdots\\y_n\end{array}\right)\end{equation} 我们想要拟合出$y=\mathbf{X}\beta+\epsilon$，其中$\epsilon$为服从均值为0，方差为$\sigma^2$的高斯分布。一、最大似然估计 $\epsilon$的密度函数： $$f(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\epsilon^2}{\sigma^2}\}=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\|y-\mathbf{X}\beta\|^2}{\sigma^2}\}$$ 似然函数： $$L(\beta)=

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

阅读更多关于关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

在机器学习领域中，概率模型是一个常用的利器。用它来对问题进行建模，有几点好处：1）当给定参数分布的假设空间后，可以通过很严格的数学推导，得到模型的似然分布，这样模型可以有很好的概率解释；2）可以利用现有的EM算法或者Variational method来学习。通常为了方便推导参数的后验分布，会假设参数的先验分布是似然的某个共轭分布，这样后验分布和先验分布具有相同的形式，这对于建模过程中的数学推导可以大大的简化，保证最后的形式是tractable。在概率模型中，Dirichlet这个词出现的频率非常的高。初始机器学习的同学或者说得再广一些，在学习概率模型的时候，很多同学都不清楚为啥一个表现形式如此奇怪的分布Dirichlet分布会出现在我们的教科书中，它是靠啥关系攀上了多项分布（Multinomial distribution）这个亲戚的，以至于它可以“堂而皇之”地扼杀我大天朝这么多数学家和科学家梦想的？为了引出背后这层关系，我们需要先介绍一个概念—— 共轭先验（Conjugate Prior）。 Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability

LDA-math-认识Beta/Dirichlet分布

阅读更多关于 LDA-math-认识Beta/Dirichlet分布

http://cos.name/2013/01/lda-math-beta-dirichlet/#more-6953 2. 认识Beta/Dirichlet分布 2.1 魔鬼的游戏—认识Beta 分布统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝，运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了，撒旦说：“你们人类很聪明，而我是很仁慈的，和你玩一个游戏，赢了就可以走，否则把灵魂出卖给我。游戏的规则很简单，我有一个魔盒，上面有一个按钮，你每按一下按钮，就均匀的输出一个[0,1]之间的随机数，我现在按10下，我手上有10个数，你猜第7大的数是什么，偏离不超过0.01就算对。”你应该怎么猜呢？从数学的角度抽象一下，上面这个游戏其实是在说随机变量 X 1 , X 2 , ⋯ , X n ∼ i i d U n i f o r m ( 0 , 1 ) ，把这 n 个随机变量排序后得到顺序统计量 X ( 1 ) , X ( 2 ) ， ⋯ , X ( n ) , 然后问 X ( k ) 的分布是什么。对于不喜欢数学的同学而言，估计每个概率分布都是一个恶魔，那在概率统计学中，均匀分布应该算得上是潘多拉魔盒，几乎所有重要的概率分布都可以从均匀分布 U n i f o r m ( 0 , 1 ) 中生成出来;尤其是在统计模拟中，所有统计分布的随机样本都是通过均匀分布产生的。

beta 分布的简单理解

阅读更多关于 beta 分布的简单理解

二项分布和Beta分布二项分布在概率论和统计学中，二项分布是n个独立的[是/非]试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。举两个例子就很容易理解二项分布的含义了：抛一次硬币出现正面的概率是0.5(p)，抛10(n)次硬币，出现k次正面的概率。掷一次骰子出现六点的概率是1/6，投掷6次骰子出现k次六点的概率。在上面的两个例子中，每次抛硬币或者掷骰子都和上次的结果无关，所以每次实验都是独立的。二项分布是一个离散分布，k的取值范围为从0到n，只有n+1种可能的结果。 n = 10 k = np.arange(n+1) pcoin = stats.binom.pmf(k, n, 0.5) [ 0.00097656, 0.00976563, 0.04394531, 0.1171875 , 0.20507813, 0.24609375, 0.20507813, 0.1171875 , 0.04394531, 0.00976563, 0.00097656 ] 下面是投掷6次骰子，出现6点的概率分布。 n = 6 k = np.arange(n+1) pdice = stats.binom.pmf(k, n, 1.0/6) [ 3.34897977e-01, 4.01877572e-01, 2.00938786e-01, 5.35836763e-02, 8

从线性模型到广义线性模型（1）——模型假设篇

阅读更多关于从线性模型到广义线性模型（1）——模型假设篇

在统计学里，对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做 Y ，也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变量(regressand)；输入变量通常记做 x 1 ,…, x p ，也称为自变量(independent)、控制变量(control&controlled)、解释变量(explanatory)、预测变量(predictor)、回归量(regressor)。本文根据作者自己的一些学习心得和理解，简单且不严格地介绍在模型假设方面普通线性模型和广义线性模型的区别和联系/推广(generalization)。广义线性模型的拟合检验、推断、诊断等方面的方法和手段依赖于模型所采用的分布类型，难以一概而论，将在作者后续的学习心得文章里具体介绍。 1.普通线性模型的简单回顾普通线性模型(ordinary linear model)可以用下式表示： Y = β 0 + β 1 x 1 + β 2 x 2 + … + β p − 1 x p − 1 + ϵ (1.1) 这里 β i ， i = 1 ,…, p − 1 称为未知参数， β 0 称为截矩项。普通线性模型的假设主要有以下几点： 1.响应变量 Y 和误差项 ϵ 正态性：响应变量 Y

朴素贝叶斯算法原理小结

阅读更多关于朴素贝叶斯算法原理小结

　　　　文本主题模型之LDA(一) LDA基础　　　　文本主题模型之LDA(二) LDA求解之Gibbs采样算法　　　　文本主题模型之LDA(三) LDA求解之变分推断EM算法　　　　在前面我们讲到了基于矩阵分解的LSI和NMF主题模型，这里我们开始讨论被广泛使用的主题模型：隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA)。注意机器学习还有一个LDA，即线性判别分析，主要是用于降维和分类的，如果大家需要了解这个LDA的信息，参看之前写的线性判别分析LDA原理总结。文本关注于隐含狄利克雷分布对应的LDA。 1. LDA贝叶斯模型　　　　LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据（似然）”和"后验分布"三块。在朴素贝叶斯算法原理小结中我们也已经讲到了这套贝叶斯理论。在贝叶斯学派这里：先验分布 + 数据（似然）= 后验分布　　　　这点其实很好理解，因为这符合我们人的思维方式，比如你对好人和坏人的认知，先验分布为：100个好人和100个的坏人，即你认为好人坏人各占一半，现在你被2个好人（数据）帮助了和1个坏人骗了，于是你得到了新的后验分布为：102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布，当你被1个好人（数据）帮助了和3个坏人（数据

ML- 线性回归推导

阅读更多关于 ML- 线性回归推导

线性回归, 这部分算是我最为擅长的了, 真的不吹, 6年经验 , 我高中时代就已经会推导了, 当然是最最小二乘法和统计学(假设检验, 参数分布等)的角度. 后来上了大学, 又是从最小二乘和统计学角度, 最终呢, 还是从线性代数(向量投影) 和微积分角度 + 代码实现给整了一遍, 再后来就是ML, 撸了一遍梯度下降, 嗯, 整体感悟就是,对一个事物的认知, 需要一个时间的过程和实践. 正如古人所讲, 纸上来得终觉浅, 绝知此事要躬行. 回归模型数据: $(y_i, X_{i1}, X_{i2}...X_{ip}), \ i = 1,2,3...n$ y 是一个向量, X是一个矩阵样本 X 是一个 nxp 的矩阵, 每一行是表示一个样本, 对应一个目标值 y 是由这 p 个(维) 列向量线性组合而成, 因此叫线性回归. 模型: $y_i = \beta_0 +\beta_1 X_{i1} + \beta_2 X_{i2} + \beta_p X_{il} + \epsilon_i, \ i=1,2,...n$ $\epsilon \backsim N(0, \sigma)$ , 为啥误差的均值是0, 参考大数定律呗.(总体和样本的关系) 写为矩阵的形式: $y = X\beta + \epsilon$ X 是 nxp, $\beta$ 是 px1, y

吴恩达《深度学习》第二门课（3）超参数调试、Batch正则化和程序框架

阅读更多关于吴恩达《深度学习》第二门课（3）超参数调试、Batch正则化和程序框架

3.1调试处理（1）不同超参数调试的优先级是不一样的，如下图中的一些超参数，首先最重要的应该是学习率α（红色圈出），然后是Momentum算法的β、隐藏层单元数、mini-batch size（黄色圈出）、再之后是Layer、learning rate decay（紫色圈出）、最后是Adam算法中的β 1 、β 2 、ε。（2）用随机取值代替网格点取值。下图左边是网格点取值，如果二维参数中，一个参数调试的影响特别小，那么虽然取了25个点，其实只相当于取了5个不同的点；而右图中随机取值取了多少个点就代表有多少不同值的点。（3）由粗糙到精细的取值，先粗糙取值，然后发现最好的点，再在这个点附近进行精细的取值。如下图所示 3.2为超参数选择合适的范围（1）随机取值并不是在取值范围内随机均匀取值，而是要选择合适的标尺来随机取值。（2）案例1：在选择网络层数时，其范围是[2,4]，那么直接均匀取值2，3，4都是合理的。（3）案例2：如果在给学习率取值时，其范围是[0.0001,1],如果均匀取值，将会有90%的点落在0.1到1之间，这时不合理的；此时应该用对数坐标0.0001=10 -4 ,1=10 0 ,所以应该是在[-4,0]上随机均匀取值作为r,然后10 r 作为学习率α。如下图所示（4）指数加权平均的超参数β取值范围是[0.9,0.999],其方法是：1-β=[0.1,0

从贝叶斯角度理解正则化

阅读更多关于从贝叶斯角度理解正则化

Table of Contents 前言1.贝叶斯法则2.正则化项3.贝叶斯正则化第$I$层贝叶斯框架第$\text{II}$层贝叶斯框架贝叶斯正则化算法步骤参考资料前言上一篇：正则化下一篇：贝叶斯正则化与提前终止法关系 1.贝叶斯法则贝叶斯法则： P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A)称为先验概率（反映在已知B之前对事件A的认知）；P(A|B)称为后验概率（反映在已知B之后对事件A的认知）；P(B|A)是在事件A发生的条件下，事件B发生的条件概率；P(B)是事件的边缘概率（被用作归一化因子）贝叶斯法则在于先验概率，如果它很大，那么后验概率也将显著增大 2.正则化项一个包括网络输入及其对应目标输出的训练样本集： \left{ p_{1},t_{1} \right},\left{ p_{2},t_{2} \right},\cdots,\left{ p_{n},t_{n} \right} 假设目标输出通过如下方式生成： t_{q} = g(p_{q}) + \varepsilon_{q} （13.2）其中，g()为某未知函数，\varepsilon_{q}为一个随机独立分布的零均值噪声源。我们的训练目标是产生一个能够逼近函数g()并且忽略噪声影响的神经网络。神经网络训练的标准性能指标是该网络在训练集上的误差平方和： F(x) = E

订阅 beta分布