似然函数

似然与概率

时光毁灭记忆、已成空白 提交于 2019-12-10 22:47:59
博主写的太好了,先甩链接 http://fangs.in/post/thinkstats/likelihood/ ,这里在整理一遍 似然与概率 统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率确实两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,举抛硬币的例子来说明,抛之前我们不知道最后那一面朝上,但是根据常识我们可以推测任何一面朝上的可能性均为50%,其中这个概率只有在抛硬币之前才是有意义的,抛完硬币的结果便是确定的;而似然恰好相反,是在确定的结果下取推测产生这个结果的可能环境(参数),还是抛硬币的例子,假设我们随便抛一枚硬币1000次,结果500次人头朝上,500次数字朝上(实际情况一般不会如此理想),我们很容易判断这是一枚标准的硬币,两面朝上的概率均为50%,这个过程就是我们运用出现的结果来判断这个事情本身的性质(参数),也就是似然。 结果和参数相互对应的时候,似然和概率在数值上是相等的,如果用 θ \theta θ 表示环境对应的参数, x x x 表示结果,那么概率可以表示为: P ( x ∣ θ ) P(x|\theta) P ( x

极大似然估计

陌路散爱 提交于 2019-12-05 12:14:10
它是建立在极大似然原理的基础上的一个 统计方法 ,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球,1个黑球;乙箱中有1个白球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,事件A发生的概率与某一未知参数 有关, 取值不同,则事件A发生的概率 也不同,当我们在一次试验中事件A发生了,则认为此时的 值应是t的一切可能取值中使 达到最大的那一个,极大似然估计法就是要选取这样的t值作为参数t的估计值,使所选取的样本在被选的总体中出现的可能性为最大。 极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种 概率分布 ,但是其中具体的参数不清楚, 参数估计 就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。 当然极大似然估计只是一种粗略的 数学期望 ,要知道它的误差大小还要做区间估计

GAN中判别器与极大似然估计的关联

那年仲夏 提交于 2019-12-05 09:22:15
在GAN中,对于判别器D来说,实际上就是一个普通的二分类问题。 根据文章《交叉熵,KL散度以及多分类问题下的极大似然估计》当中的思考,对于二分类问题的极大似然估计,有如下式子成立: L ( X , Y , θ ) = ∫ x ∫ y p ( x , y ) log q ( y | x ) d y d x = ∫ p ( x ) [ p ( y i = 1 | x i ) log q ( y i = 1 | x i ) + p ( y i = 0 | x i ) log q ( y i = 0 | x i ) ] d x //--> 那么,将上式的最后一步重新写成联合概率的形式,有 L ( X , Y , θ ) = ∫ [ p ( x , y = 1 ) log q ( y = 1 | x ) + p ( x , y = 0 ) log q ( y = 0 | x ) ] d x = ∫ [ p ( x , y = 1 ) log q ( y = 1 | x ) + p ( x , y = 0 ) log q ( y = 0 | x ) ] d x //--> 对应到GAN中来,D分类器要做的就是给定一个x,需要判断这个样本x是属于real data还是generated data,如果我们把属于real data当作y=1,generated data当作y=0,那么便有 L (

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

南楼画角 提交于 2019-12-03 05:15:31
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然,本文解释的MLE和MAP都是统计领域的问题

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):

贝叶斯的三个参数估计

匿名 (未验证) 提交于 2019-12-02 23:52:01
概率与统计 概率:在给定数据生成过程下观测研究数据的性质;模型和参数->数据;推理 统计:根据观测的数据,反向思考其数据的生成过程;数据->模型和参数:归纳 关系:概率论是统计学的数学基础,统计是对概率论的应用 描述统计和推断统计 描述统计:描绘或总结观察量基本情况(均值,方差,中位数,四分位数等) 推断统计:根据得到的部分数据推测总体数据的情况(参数统计,非参数统计,估计量,真实分布,经验分布) “似然”与“概率”: 在英语中:似然(likelihood)和概率(probability)都指事件发生的可能性 在统计中:概率是已知参数,对结果可能性的预测,似然是已知结果,对参数是某一个值的可能性预测。 对于函数 \(P(x|\theta)\) 如果 \(\theta\) 已知且保持不变, \(x\) 是变量,则函数 \(P(x|\theta)\) 称为概率函数,表示不同 \(x\) 出现的概率 如果 \(x\) 已知且保持不变, \(\theta\) 是变量,则函数 \(P(x|\theta)\) 称为似然函数,表示不同 \(\theta\) 下, \(x\) 出现的概率,也记做 \(L(\theta|x)\) 或 \(L(X;\theta)\) 或 \(f(x;\theta)\) 频率学派与贝叶斯学派 频率学派与贝叶斯学派只是解决问题的角度不同 频率学派从「自然」角度出发

先验概率、后验概率、似然函数与机器学习中概率模型(如逻辑回归)的关系理解

匿名 (未验证) 提交于 2019-12-02 22:56:40
看了好多书籍和博客,讲先验后验、贝叶斯公式、两大学派、概率模型、或是逻辑回归,讲的一个比一个清楚 ,但是联系起来却理解不能 基本概念如下 后验概率:一个事件在另一个事件发生条件下的条件概率 \[P(y|x)\] 贝叶斯公式:联合概率公式直接能推导出来的,代表什么意义?不放在具体问题中代表不了任何意义 \[P(y|x) = \frac{{P(x|y)P(y)}}{{P(x)}}\] 拿一个实际的例子,如果用阴天预测是否下雨 把注意力集中在分母,公式可以理解为:阴天会下雨的概率(后验概率),不仅跟下雨并且是阴天的概率有关,还跟不下雨也是阴天的概率有关 \[P(rain|cloudy) = \frac{{P(cloudy|rain)P(rain)}}{{P(cloudy|rain)P(rain) + P)(cloudy|norain)P(norain)}}\] 在很多文献中,将x与y分别描述为“因”和“果”,P(因)即为先验概率,P(因|果)即已经知道结果求原因的概率为后验概率,这里产生了第一个混淆点,在很多现实的例子里,“因”“果”是什么?因为阴天所以下雨?还是因为要下雨所以阴天? 在上面的例子里,显然只能解释为后者,即这天要下雨是“原因”,阴天是下雨的“结果”,下雨可能引发阴天,也可能引发不阴天。这个理解本身就很别扭。 在英文中,P(y)先验概率、P(y|x)后验概率、P(x|y

深度学习之最大似然估计与最小二乘(二)

匿名 (未验证) 提交于 2019-12-02 22:56:40
一、机器学习中的最大似然、最小二乘、梯度下降   最小二乘和极大似然估计是目标函数,梯度下降是优化算法。机器学习的核心是一个模型,一个损失函数loss fuction,加上一个优化的算法。一个目标函数可以用不同的优化算法,不同的目标函数也可以用相同的优化算法。所以最小二乘和极大似然根本不是算法,和梯度下降毫无可比性。   PS:最小二乘和极大似然也不是对立的。最小二乘是从函数形式上来看的,极大似然是从概率意义上来看的。事实上,最小二乘可以由高斯噪声假设+极大似然估计推导出来。当然 极大似然估计 还可以推导出其他的loss function,比如 logistic回归 中,loss function是交叉熵.   最大似然(MLE),最小二乘都是构造 目标函数 的方法,构造出这个目标函数后,我们可以用各种 优化方法 来找到它的极值,这些优化方法中,有一类是使用函数的梯度信息,包括一阶的方法,例如梯度下降,以及二阶的方法,例如牛顿法等。     对于线性回归问题,它的 模型 ,我们采用 最大似然 来构造一个目标函数,最后用 梯度下降 来找到目标函数的最值。当然,对于这个问题,我们也可以不用梯度下降,直接用向量的投影来 直接算出 最优解的表达式(最小二乘)。    实际上可以这样理解,极大似然函数(构造损失函数)+梯度下降可以解决所有回归问题,但多用于logist回归

最大似然估计、最大后验估计与朴素贝叶斯分类算法

你。 提交于 2019-12-02 22:40:25
最大似然估计、最大后验估计与朴素贝叶斯分类算法 目录   一、前言   二、概率论基础   三、最大似然估计   四、最大后验估计   五、朴素贝叶斯分类   六、参考文献 一、前言   本篇文章的主要内容为笔者对概率论基础内容的回顾,及个人对其中一些知识点的解读。另外,在这些上述知识的基础之上,回顾了概率推断的基础内容最大似然估计与最大后验估计。最后,文章的结尾回顾了朴素贝叶斯分类方法的基本流程,并且用一个小案例来帮助读者更好地掌握该方法的基本流程。 二、概率论基础 (1)概率   定义[1]:设E是随机实验,S是它的样本空间。对于E的每一个事件A赋予一个实数,记为P(A),称为事件A的概率,如果集和函数P(.)满足如下条件:   (1)非负性:对每一个事件A,有P(A)>=0;   (2)规范性:对于必然事件S,有p(S)=1;   (3)可列可加性:设A1,A2,...是两两互不相容的事件,即对于AiAj=Ø,i≠j,i,j=1,2,...,有:   P(A1∪A2∪A3...)=P(A1)+P(A2)+P(A3)+.... (2)随机变量    一个随机变量指的是一个可以随机地取多种数值的的变量,本文中使用大写字母来表示随机变量,其取值则用小写字母表示,如:随机变量X,可以取值为{x 1 ,x 2 ,x 3 ,...}。随机变量只是一种对随机现象所有可能状态的表示

极大似然估计

家住魔仙堡 提交于 2019-12-01 12:06:51
极大似然估计的原理,先用一张图片来说明 总结起来,极大似然估计的目的:就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。 通过若干次试验,观察其结果,利用试验结果的某个参数值能够使样本出现的概率最大,称为极大似然估计。 由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ,记已知样本集为: 似然函数(linkehood function):联合概率密度函数p(D|θ)称为相对于样本集D={x1,x2,x3,...,xn} 的θ的似然函数 若 使参数空间中,能使似然函数 最大的θ值,那 应该使最可能值, 就是θ的极大似然估计量,它是样本集函数 记作:              求解极大似然函数 ML估计:求使得改组样本的概率最大的θ值            连乘不便于分析,故定义了对数似然函数: 1.未知参数只有一个时(θ为标量),似然函数满足连续可微,极大似然估计量是下面微分方程的解          2.未知参数有多个(θ为向量)                  记梯度算子:              似然函数满足连续可导,最大似然估计量就是如下方程的解。            总结 求解极大似然估计量步骤: 1.写出似然函数 2.对似然函数取对数,整理 3.求导数 4.解似然方程 最大似然估计特点: 1.比其他估计方法简单 2.收敛性