极大似然估计

极大似然小结

强颜欢笑 提交于 2019-12-01 07:29:36
在机器学习中,我们经常要利用极大似然法近似数据整体的分布,本篇文章通过介绍极大似然法及其一些性质,旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率 首先看一下经典的贝叶斯公式: \[ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} \] 其中, \(p(Y)\) 称为先验概率( \(prior\) ),即根据先验知识得出的关于变量 \(Y\) 的分布, \(p(X|Y)\) 称为似然函数( \(likelihood\) ), \(p(X)\) 为变量 \(X\) 的概率, \(p(Y|X)\) 称之为条件概率(给定变量 \(X\) 的情况下 \(Y\) 的概率, \(posterior\) ,后验概率)。 1. 似然函数 似然,即可能性;顾名思义,则似然函数就是关于可能性的函数了。在统计学中,它表示了模型参数的似然性,即作为统计模型中参数的函数。一般形式如下: \[ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) \] 其中, \(D\) 表示样本集 \(\{x_1,x_2,\cdots, x_n\}\) ,   \(\omega\) 表示参数向量。 似然函数表示了在不同的参数向量 \(\omega\) 下,观测数据出现的可能性的大小,它是参数向量 \(\omega\) 的函数。在某种意义上

极大似然小结

ⅰ亾dé卋堺 提交于 2019-12-01 06:21:13
在机器学习中,我们经常要利用极大似然法近似数据整体的分布,本篇文章通过介绍极大似然法及其一些性质,旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率 首先看一下经典的贝叶斯公式: $$ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} $$ 其中,$p(Y)$称为先验概率($prior$),即根据先验知识得出的关于变量$Y$的分布,$p(X|Y)$称为似然函数($likelihood$),$p(X)$为变量$X$的概率,$p(Y|X)$称之为条件概率(给定变量$X$的情况下$Y$的概率,$posterior$,后验概率)。 1. 似然函数 似然,即可能性;顾名思义,则似然函数就是关于可能性的函数了。在统计学中,它表示了模型参数的似然性,即作为统计模型中参数的函数。一般形式如下: $$ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) $$ 其中,$D$表示样本集${x_1,x_2,\cdots, x_n}$,  $\omega$表示参数向量。 似然函数表示了在不同的参数向量$\omega$下,观测数据出现的可能性的大小,它是参数向量$\omega$的函数。在某种意义上,我们可以认为其是条件概率的逆反$^{[1]}$。 在这里利用Wikipedia$^{[1]}$中的例子简要说明一下似然函数

19 误差分布曲线的建立 - 高斯导出误差正态分布

半城伤御伤魂 提交于 2019-11-29 18:34:47
事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。 追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。 1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了! 高斯为此名声大震

极大似然估计

那年仲夏 提交于 2019-11-29 08:29:00
———————————————— 版权声明:本文为CSDN博主「知行流浪」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。 原文链接: https://blog.csdn.net/zengxiantao1994/article/details/72787849 极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下: 贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。 我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少? 从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。 设: 由已知可得: 男性和女性穿凉鞋相互独立,所以 (若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要)。

极大似然估计

点点圈 提交于 2019-11-28 03:31:20
极大似然估计(Maximum Likelihood Method)案例 1. 问题描述 假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少? 2. 问题分析 给出答案:白球所占比例 \(\frac{70}{100}=70%\) 。而其后的理论支撑是什么呢? 我们假设罐中白球的比例是 \(p\) ,那么黑球的比例就是 \(1-p\) 。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的 球的颜色服从同一独立分布 。 这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是 \(P(SamplingResult \mid Model)\) 。 如果第一次抽象的结果记为 \(x_1\) ,第二次抽样的结果记为 \(x_2\) ,重复下去。那么样本结果为 \(x_1, x_2, \cdots, x_{100}\) 。这样,我们可以得到如下表达式: \[P(SamplingResult

逻辑回归1_逻辑回归原理详解

点点圈 提交于 2019-11-26 16:43:33
1.1 逻辑回归原理详解 1.1.1 LR原理讲解+公式推导 从公式推导中详细讲解逻辑回归算法的原理。 线性回归模型: 逻辑回归是用来估计一个实例属于某个特定类别的概率,是一个二分类算法,如果预估概率大于等于50%,则模型预测该实例为正类,反之,则预测为负类。 则需要把y从负无穷大到正无穷大映射为概率p从0到1,可以设置为: 则: 两边取e,整理后,得到 逻辑函数 : 一旦逻辑回归模型估算出实例x属于正类的概率为p,那么就可以轻松推断出y值。 假设: 则: 我们需要对系数θ估计,可以采用极大似然估计(MLE),通过最大化对数似然值来估计参数。 注:极大似然估计定义见下文详细讲解。 两边取对数,连乘会改为连加。 单个训练实例的成本函数: 当p接近于0时,-log(p)就会变得非常大,如果模型估计一个正类的概率接近于0,成本将会变得很高。同理,估计一个负类实例的概率接近于1,成本也会变得非常高。 整个训练集的成本函数即为训练实例的平均成本。逻辑回归成本函数表示如下。 逻辑回归成本函数(log 损失函数) : 这是一个凸函数,通过梯度上升能够找出全局最大值。(只要学习率不是太高,又可以长时间等待) 对logL求某个系数θ的偏导: 手写过程如下所示: 即:逻辑回归成本函数的偏导数为每个实例真实值与预测值的误差,将其乘以第j个特征值,并求和。 那么怎么获得系数呢?通过 这个函数开口向下