最大似然估计

贝叶斯的三个参数估计

匿名 (未验证) 提交于 2019-12-02 23:52:01
概率与统计 概率:在给定数据生成过程下观测研究数据的性质;模型和参数->数据;推理 统计:根据观测的数据,反向思考其数据的生成过程;数据->模型和参数:归纳 关系:概率论是统计学的数学基础,统计是对概率论的应用 描述统计和推断统计 描述统计:描绘或总结观察量基本情况(均值,方差,中位数,四分位数等) 推断统计:根据得到的部分数据推测总体数据的情况(参数统计,非参数统计,估计量,真实分布,经验分布) “似然”与“概率”: 在英语中:似然(likelihood)和概率(probability)都指事件发生的可能性 在统计中:概率是已知参数,对结果可能性的预测,似然是已知结果,对参数是某一个值的可能性预测。 对于函数 \(P(x|\theta)\) 如果 \(\theta\) 已知且保持不变, \(x\) 是变量,则函数 \(P(x|\theta)\) 称为概率函数,表示不同 \(x\) 出现的概率 如果 \(x\) 已知且保持不变, \(\theta\) 是变量,则函数 \(P(x|\theta)\) 称为似然函数,表示不同 \(\theta\) 下, \(x\) 出现的概率,也记做 \(L(\theta|x)\) 或 \(L(X;\theta)\) 或 \(f(x;\theta)\) 频率学派与贝叶斯学派 频率学派与贝叶斯学派只是解决问题的角度不同 频率学派从「自然」角度出发

深度学习之最大似然估计与最小二乘(二)

匿名 (未验证) 提交于 2019-12-02 22:56:40
一、机器学习中的最大似然、最小二乘、梯度下降   最小二乘和极大似然估计是目标函数,梯度下降是优化算法。机器学习的核心是一个模型,一个损失函数loss fuction,加上一个优化的算法。一个目标函数可以用不同的优化算法,不同的目标函数也可以用相同的优化算法。所以最小二乘和极大似然根本不是算法,和梯度下降毫无可比性。   PS:最小二乘和极大似然也不是对立的。最小二乘是从函数形式上来看的,极大似然是从概率意义上来看的。事实上,最小二乘可以由高斯噪声假设+极大似然估计推导出来。当然 极大似然估计 还可以推导出其他的loss function,比如 logistic回归 中,loss function是交叉熵.   最大似然(MLE),最小二乘都是构造 目标函数 的方法,构造出这个目标函数后,我们可以用各种 优化方法 来找到它的极值,这些优化方法中,有一类是使用函数的梯度信息,包括一阶的方法,例如梯度下降,以及二阶的方法,例如牛顿法等。     对于线性回归问题,它的 模型 ,我们采用 最大似然 来构造一个目标函数,最后用 梯度下降 来找到目标函数的最值。当然,对于这个问题,我们也可以不用梯度下降,直接用向量的投影来 直接算出 最优解的表达式(最小二乘)。    实际上可以这样理解,极大似然函数(构造损失函数)+梯度下降可以解决所有回归问题,但多用于logist回归

最大似然估计、最大后验估计与朴素贝叶斯分类算法

你。 提交于 2019-12-02 22:40:25
最大似然估计、最大后验估计与朴素贝叶斯分类算法 目录   一、前言   二、概率论基础   三、最大似然估计   四、最大后验估计   五、朴素贝叶斯分类   六、参考文献 一、前言   本篇文章的主要内容为笔者对概率论基础内容的回顾,及个人对其中一些知识点的解读。另外,在这些上述知识的基础之上,回顾了概率推断的基础内容最大似然估计与最大后验估计。最后,文章的结尾回顾了朴素贝叶斯分类方法的基本流程,并且用一个小案例来帮助读者更好地掌握该方法的基本流程。 二、概率论基础 (1)概率   定义[1]:设E是随机实验,S是它的样本空间。对于E的每一个事件A赋予一个实数,记为P(A),称为事件A的概率,如果集和函数P(.)满足如下条件:   (1)非负性:对每一个事件A,有P(A)>=0;   (2)规范性:对于必然事件S,有p(S)=1;   (3)可列可加性:设A1,A2,...是两两互不相容的事件,即对于AiAj=Ø,i≠j,i,j=1,2,...,有:   P(A1∪A2∪A3...)=P(A1)+P(A2)+P(A3)+.... (2)随机变量    一个随机变量指的是一个可以随机地取多种数值的的变量,本文中使用大写字母来表示随机变量,其取值则用小写字母表示,如:随机变量X,可以取值为{x 1 ,x 2 ,x 3 ,...}。随机变量只是一种对随机现象所有可能状态的表示

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

佐手、 提交于 2019-11-29 04:35:07
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然,本文解释的MLE和MAP都是统计领域的问题

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

╄→尐↘猪︶ㄣ 提交于 2019-11-29 04:34:43
转载声明:本文为转载文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 原文作者: nebulaf91 原文原始地址: http://blog.csdn.net/u011508640/article/details/72815981 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中

数据挖掘经典算法概述以及详解链接

不想你离开。 提交于 2019-11-26 21:47:42
po主最近在学习数据挖掘方面相关算法,今天就在这里总结一下数据挖掘领域的经典算法,同时提供每个算法的详解链接,就当做在这里温习吧。对于熟悉的算法我会有较多的描述,不熟悉的算法可能描述较少,以免误导,但是会贴出学习的链接。由于本人也是资历尚浅,必然有错误的地方,也希望大家能够指出来,我也会改正的,谢谢大家。 数据挖掘方面的算法,主要可以用作 分类,聚类,关联规则,信息检索,决策树,回归分析 等。他们的界限并不是特别的明显,常常有交叉,如聚类算法在一定程度上也是一种分类算法。分类算法比较成熟,并且分支也较多。 这里先介绍两个概念: 监督学习 与 非监督学习 。通俗一点说,如果我们提前设置一些标签,然后对于每个待分类项根据一定规则分类到某些标签,这就是 监督学习 。如果我们提前不知道标签,而是通过一定的统计手段将一定量的数据,分成一个个类别,这就是 非监督学习 ,通常用作“聚类”(不绝对)。当然监督学习常用作分类学习,也可用作回归分析等。 1.K-Means算法 K-Means算法是一种常用的 非监督学习 聚类算法,也常用在图像检索领域,如K-Means+BoF算法。它的作用就是我们可以在不知道有哪些类别的情况下,将数据以K个 类心 ,聚成K个 聚类 。 通常我们会先确定一个相异度度量方法,常用的相异度有, 欧氏距离,曼哈顿距离,马氏距离,余弦距离 等。根据两个数据之间的“距离

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

主宰稳场 提交于 2019-11-26 16:56:57
文章目录 概率和统计是一个东西吗? 贝叶斯公式到底在说什么? 似然函数 文章目录 概率和统计是一个东西吗? 贝叶斯公式到底在说什么? 似然函数 来源: https://blog.csdn.net/a200332/article/details/98960751

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解(转)

99封情书 提交于 2019-11-26 15:16:42
声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 本文作者: nebulaf91 本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981 频率学派与贝叶斯派 在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别频率学派与贝叶斯派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。 ① 频率学派 他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。 他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。 ② 贝叶斯派 他们认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。

概念介绍(机器学习)

妖精的绣舞 提交于 2019-11-26 11:37:23
似然函数 :似然函数在形式上就概率密度函数。 似然函数用来估计某个参数。 最大似然函数 :就是求似然函数的最大值。 最大似然函数用于估计最好的参数。 最小二乘法 :它通过最小化 误差 的平方和寻找数据的最佳 函数 匹配。就是求 y=a1+a2x的系数。通过最小化误差的平方,然后求系数的偏导数,令导数为0,求解。 梯度下降法 ,基于这样的观察:如果实值函数 在点 处 可微 且有定义,那么函数 在 点沿着 梯度 相反的方向 下降最快。就是求最低点。 局部加权回归 : 它的中心思想是在对参数进行求解的过程中,每个样本对当前参数值的影响是有不一样的权重的,自己上网搜吧。 转载于:https://www.cnblogs.com/GuoJiaSheng/p/3866487.html 来源: https://blog.csdn.net/weixin_30819163/article/details/98825774