参数估计

贝叶斯统计概要(待修改)

こ雲淡風輕ζ 提交于 2019-12-05 05:23:20
一:频率派,贝叶斯派的哲学 现在考虑一个最最基本的问题,到底什么是概率?当然概率已经是在数学上严格的,良好定义的,这要归功于30年代大数学家A.N.Kolmogrov的概率论公理化。但是数学上的概率和现实世界到底是有怎样的关系?我们在用数学理论--------概率论解决实际问题的时候,又应该用什么样的观点呢?这真差不多是个哲学问题。这个问题其实必须得好好考察一下,下面我们看看最基本的两种哲学观,分别来自频率派和贝叶斯派, 我们这里的 “哲学” 指的是数学研究中朴素的哲学观念,而不是很严肃的哲学讨论。 1.1. 经典的统计(频率派)的哲学 : 1)概率指的是频率的极限,概率是真实世界的客观性质(objective property) 2)概率分布的参数都是固定的,通常情况下未知的常数,不存在"参数$\theta$满足XXX的概率是X"这种概念。 3)统计方法应该保证具有良好的极限频率性质,例如95%区间估计应该保证当$N$足够大的时候,我们选取$N$个样本集$S_{1}$, $S_{2}$,...,$S_{N}$所计算出来的相应的区间$I_{1}$,$I_{2}$,...,$I_{N}$中将有至少95%*N个区间包含我们需要估计的统计量的真实值。 我们从上看到,经典频率派的统计是非常具有 唯物主义(materialism) 色彩的,而贝叶斯的哲学大不一样

贝叶斯统计概要(待修改)

£可爱£侵袭症+ 提交于 2019-12-05 03:25:02
一:贝叶斯的哲学 现在考虑一个最最基本的问题,到底什么是概率?当然概率已经是在数学上严格的,良好定义的,这要归功于30年代大数学家A.N.Kolmogrov的概率论公理化。但是数学上的概率和现实世界到底是有怎样的关系?我们在用数学理论--------概率论解决实际问题的时候,又应该用什么样的观点呢?这真差不多是个哲学问题。这个问题其实必须得好好考察一下,下面我们看看最基本的两种哲学观,分别来自频率派和贝叶斯派, 我们这里的 “哲学” 指的是数学研究中朴素的哲学观念,而不是很严肃的哲学讨论。 1.1. 经典的统计推断(频率派)的哲学 : 1)概率指的是频率的极限,概率是真实世界的客观性质(objective property) 2)概率分布的参数都是固定的,通常情况下未知的常数,不存在"参数$\theta$满足XXX的概率是X"这种概念。 3)统计方法应该保证具有良好的极限频率性质,例如95%区间估计应该保证当$N$足够大的时候,我们选取$N$个样本集$S_{1}$, $S_{2}$,...,$S_{N}$所计算出来的相应的区间$I_{1}$,$I_{2}$,...,$I_{N}$中将有至少95%*N个区间包含我们需要估计的统计量的真实值。 我们从上看到,经典频率派的统计是非常具有 唯物主义(materialism) 色彩的,而贝叶斯的哲学大不一样,据考证贝叶斯是英格兰的一名牧师

从贝叶斯角度理解正则化

試著忘記壹切 提交于 2019-12-05 00:27:42
Table of Contents 前言1.贝叶斯法则2.正则化项3.贝叶斯正则化第$I$层贝叶斯框架第$\text{II}$层贝叶斯框架贝叶斯正则化算法步骤参考资料 前言 上一篇: 正则化 下一篇:贝叶斯正则化与提前终止法关系 1.贝叶斯法则 贝叶斯法则: P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A)称为先验概率(反映在已知B之前对事件A的认知);P(A|B)称为后验概率(反映在已知B之后对事件A的认知);P(B|A)是在事件A发生的条件下,事件B发生的条件概率;P(B)是事件的边缘概率(被用作归一化因子) 贝叶斯法则在于先验概率,如果它很大,那么后验概率也将显著增大 2.正则化项 一个包括网络输入及其对应目标输出的训练样本集: \left{ p_{1},t_{1} \right},\left{ p_{2},t_{2} \right},\cdots,\left{ p_{n},t_{n} \right} 假设目标输出通过如下方式生成: t_{q} = g(p_{q}) + \varepsilon_{q} (13.2) 其中,g()为某未知函数,\varepsilon_{q}为一个随机独立分布的零均值噪声源。我们的训练目标是产生一个能够逼近函数g()并且忽略噪声影响的神经网络。 神经网络训练的标准性能指标是该网络在训练集上的误差平方和: F(x) = E

贝叶斯笔记

回眸只為那壹抹淺笑 提交于 2019-12-04 21:26:32
绪论 贝叶斯学派的最基本的观点是: 任一个未知量 \(\theta\) 都可看作一个随机变量,应该用一个概率分布去描述对 \(\theta\) 的未知状况。 这个概率分布是在抽样前就有的关于 \(\theta\) 的先验信息的概率称述。 似然函数 属于联合密度函数,综合了总体信息和样本信息 \[ L(\theta^\prime)=p(X|\theta^\prime)=\prod_{i=1}^n p(x_i|\theta^\prime) \] 贝叶斯公式的密度函数形式与离散形式,其中 \(\theta\) 的条件分布称为 \(\theta\) 的后验分布,集中了总体、样本和先验等三种信息中有关 \(\theta\) 的一切信息,排除了与之无关的信息。一般先验分布 \(\pi(\theta)\) 反映人们抽样前的认识,通过抽样信息(总体信息和样本信息)对先验进行调整形成后验分布。 \[ \pi(\theta|\pmb{x})=\frac{p(\pmb{x}|\theta)\pi(\theta)}{h(\pmb{x},\theta)}=\frac{p(\pmb{x}|\theta)\pi(\theta)}{\int_{\Theta} {p(\pmb{x}|\theta)\pi(\theta)}\rm d\theta} \] \[ \pi(\theta_i|x)=\frac{p(x|

机器学习中的参数与超参数之间的区别

有些话、适合烂在心里 提交于 2019-12-03 17:28:38
机器学习中的模型参数和模型超参数在作用、来源等方面都有所不同,而模型超参数常被称为模型参数,这样,很容易对初学者造成混淆。本文给出了模型参数和模型超参数的定义,并进行了对比,指出了二者本质上的区别:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值。 我们在做研究的时候,会碰到很多术语。有时,在不同的研究领域还会出现同样名称的术语。比如,统计学、经济学中经常使用的“模型参数”和“模型超参数”,在机器学习中也同样存在。 机器学习领域中的“模型参数”“模型超参数”在作用、来源等方面都有所不同,初学者如果对二者没有明确的认识,学习起来往往会比较吃力,尤其是那些来自统计学和经济学领域的初学者们。 为了让大家在应用机器学习时,对“参数模型”和“超参数模型”有一个清晰的界定,在这篇文章中,我们将具体讨论这两个术语。 首先,我们来看一下“ 参数 ”是什么? 参数作为模型从历史训练数据中学到的一部分,是机器学习算法的关键 。 统计学中的“参数”: 在统计学中,你可以假设一个变量的分布,比如高斯分布。高斯分布的两个参数分别是平均值(μ)和标准差(sigma)。这在机器学习中是有效的,其中这些参数可以用数据估计得到并用作预测模型的一部分。 编程中的“参数”: 编程中可以将参数传递给函数。在这种情况下,参数是一个函数参数,可以有一个值范围

过拟合和欠拟合

别等时光非礼了梦想. 提交于 2019-12-03 07:12:58
过拟合:样本数量少于要估计的参数,容易造成过拟合,泛化能力会很差。 欠拟合:样本数量多于要估计的参数,易造成欠拟合。 来源: https://www.cnblogs.com/yibeimingyue/p/11782509.html

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

南楼画角 提交于 2019-12-03 05:15:31
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然,本文解释的MLE和MAP都是统计领域的问题

卡尔曼滤波的理解以及参数调整

匿名 (未验证) 提交于 2019-12-03 00:39:02
卡尔曼滤波器是一种最优线性状态估计方法(等价于“在最小均方误差准则下的最佳线性滤波器”),所谓状态估计就是通过数学方法寻求与观测数据最佳拟合的状态向量。 在移动机器人导航方面,卡尔曼滤波是最常用的状态估计方法。直观上来讲,卡尔曼滤波器在这里起了数据融合的作用,只需要输入当前的测量值(多个传感器数据)和上一个周期的估计值就能估计当前的状态,这个估计出来的当前状态综合考量了传感器数据(即所谓的观察值、测量值)和上一状态的数据,为当前最优估计,可以认为这个估计出来的值是最可靠的值。由于我们在SLAM中主要用它做位置估计,所以前面所谓的估计值就是估计位置坐标了,而输入的传感器数据包括码盘推算的位置、陀螺仪的角速度等(当然可以有多个陀螺仪和码盘),最后输出的最优估计用来作为机器人的当前位置被导航算法以外的其他程序所调用。 列举一下卡尔曼滤波的优点:采用递归方法解决线性滤波问题,只需要当前的测量值和前一个采样周期的估计值就能够进行状态估计,不需要大量的存储空间,每一步的计算量小,计算步骤清晰,非常适合计算机处理。 首先明确卡尔曼滤波器的前提假设: 信息过程的足够精确的模型,是由白噪声所激发的线性、离散和有限维动态系统(可以是时变的); 每次测量信号都包含着附加的白噪声分量。 满足上述条件就可以使用卡尔曼滤波器。 x k = A x k 1 + B u k 1 + w k 1 x k xk

数理统计与参数估计

匿名 (未验证) 提交于 2019-12-03 00:29:01
概率和统计 1.期望 2.方差 3.协方差和相关系数 4.矩 重要定理和不等式 1.Jensen不等式 2.切比雪夫不等式 3.大数定理(伯努利定理) 频率估计概率: 正态分布的参数估计 朴素贝叶斯做垃圾邮件分类 隐马尔可夫模型有监督参数学习 4.中心极限定理 用样本估计参数 1.矩估计 2.极大似然估计 文章来源: 数理统计与参数估计

贝叶斯的三个参数估计

匿名 (未验证) 提交于 2019-12-02 23:52:01
概率与统计 概率:在给定数据生成过程下观测研究数据的性质;模型和参数->数据;推理 统计:根据观测的数据,反向思考其数据的生成过程;数据->模型和参数:归纳 关系:概率论是统计学的数学基础,统计是对概率论的应用 描述统计和推断统计 描述统计:描绘或总结观察量基本情况(均值,方差,中位数,四分位数等) 推断统计:根据得到的部分数据推测总体数据的情况(参数统计,非参数统计,估计量,真实分布,经验分布) “似然”与“概率”: 在英语中:似然(likelihood)和概率(probability)都指事件发生的可能性 在统计中:概率是已知参数,对结果可能性的预测,似然是已知结果,对参数是某一个值的可能性预测。 对于函数 \(P(x|\theta)\) 如果 \(\theta\) 已知且保持不变, \(x\) 是变量,则函数 \(P(x|\theta)\) 称为概率函数,表示不同 \(x\) 出现的概率 如果 \(x\) 已知且保持不变, \(\theta\) 是变量,则函数 \(P(x|\theta)\) 称为似然函数,表示不同 \(\theta\) 下, \(x\) 出现的概率,也记做 \(L(\theta|x)\) 或 \(L(X;\theta)\) 或 \(f(x;\theta)\) 频率学派与贝叶斯学派 频率学派与贝叶斯学派只是解决问题的角度不同 频率学派从「自然」角度出发