贝叶斯的三个参数估计

匿名 (未验证) 提交于 2019-12-02 23:52:01

概率与统计

  • 概率:在给定数据生成过程下观测研究数据的性质;模型和参数->数据;推理
  • 统计:根据观测的数据,反向思考其数据的生成过程;数据->模型和参数:归纳
  • 关系:概率论是统计学的数学基础,统计是对概率论的应用

描述统计和推断统计

  • 描述统计:描绘或总结观察量基本情况(均值,方差,中位数,四分位数等)
  • 推断统计:根据得到的部分数据推测总体数据的情况(参数统计,非参数统计,估计量,真实分布,经验分布)

“似然”与“概率”:

  • 在英语中:似然(likelihood)和概率(probability)都指事件发生的可能性
  • 在统计中:概率是已知参数,对结果可能性的预测,似然是已知结果,对参数是某一个值的可能性预测。
  • 对于函数\(P(x|\theta)\)
    • 如果\(\theta\)已知且保持不变,\(x\)是变量,则函数\(P(x|\theta)\)称为概率函数,表示不同\(x\)出现的概率
    • 如果\(x\)已知且保持不变,\(\theta\)是变量,则函数\(P(x|\theta)\)称为似然函数,表示不同\(\theta\)下,\(x\)出现的概率,也记做\(L(\theta|x)\)\(L(X;\theta)\)\(f(x;\theta)\)

频率学派与贝叶斯学派

  • 频率学派与贝叶斯学派只是解决问题的角度不同
  • 频率学派从「自然」角度出发。认为模型的参数是客观的固定的, 样本信息来自总体,仅通过研究样本信息可以对总体信息做出合理的推断和估计,并且样本越多,就越准确
  • 贝叶斯学派从「观察者」角度出发。认为未知参数可以先从主观角度来考虑,任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数
    • 频率学派的代表是最大似然估计;贝叶斯学派的代表是最大后验概率估计。
    • 频率派概率以频率为主体,贝叶斯概率以置信度为主体

贝叶斯公式:\(P(A|B)=\frac{P(B|A)}{P(B)}*P(A)\)

  • \(P(A|B)\)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率,表示事件B发生后,事件A发生的置信度
  • \(P(A)\)是A的先验概率或边缘概率,表示事件A发生的置信度
  • \(P(B|A)\)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率,也被称作似然函数。
  • \(P(B)\)是B的先验概率或边缘概率,称为标准化常量
  • \(\frac{P(B|A)}{P(B)}\)称为标准似然比,表示事件B为事件A发生提供的支持程度

最大似然估计将参数\(\theta\)看做固定值,只是其值未知。思想是使得观测数据(样本)发生概率\(P(X|\theta)\)最大的\(\theta\)就是最好的\(\theta\)

最大似然估计的求解步骤:

  1. 写出单个样本的似然
  2. 写出总体的似然函数\(L(X;\theta)\)
  3. 转成对数似然函数
  4. 求对数似然函数的最大值(求导,解似然方程)

最大似然函数认为\(\theta\)具有某种概率分布,称为先验分布,求解时除了要考虑似然函数\(P(X|\theta)\)之外,还要考虑\(\theta\)的先验分布\(P(\theta)\),因此其认为使\(P(X|\theta)P(\theta)\)取最大值的\(\theta\)就是最好的\(\theta\)

  • 由于X的先验分布\(P(X)\)是固定的,所以最大化函数可以变为\(\frac{P(X|\theta)P(\theta)}{P(X)}=P(\theta|X)\)

最大后验概率估计的求解步骤:

  1. 确定参数的先验分布\(P(\theta)\)以及似然函数\(L(X;\theta)\)
  2. 确定参数的后验分布函数\(L(X;\theta)P(\theta)\)
  3. 将后验分布函数转换为对数函数
  4. 求对数函数的最大值(求导,解方程)

贝叶斯估计是最大后验估计的进一步扩展,此时不直接估计参数\(\theta\)的值,而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计,都求出了参数\(\theta\)的值,而贝叶斯估计则不是,贝叶斯估计扩展了极大后验概率估计MAP(一个是等于,一个是约等于)方法,它根据参数的先验分布\(P(\theta)\)和一系列观察X(先验分布\(P(X)\)是不可忽略),求出参数的后验分布\(P(\theta|X)\),然后求出的期望值,作为其最终值。另外还定义了参数的一个方差量,来评估参数估计的准确程度或者置信度。
贝叶斯估计的求解步骤:

  1. 确定参数的似然函数\(P(X|\theta)\)
  2. 确定参数的先验分布\(P(\theta)\),应是后验分布的共轭先验
  3. 根据贝叶斯公式求解参数的后验分布
    • \(P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int P(X|\theta)P(\theta)d\theta}\)
  4. 求出贝叶斯估计值
    • \(\hat{\theta}=\int \theta p(\theta|X)d\theta\)

当先验分布均匀之时(无信息先验,此时贝叶斯方法等同于频率方法),MAP估计与MLE相等。直观讲,它表征了最有可能值的任何先验知识的匮乏。在这一情况中,所有权重分配到似然函数,因此当我们把先验与似然相乘,由此得到的后验极其类似于似然。因此,最大似然方法可被看作一种特殊的MAP

随数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。而且可以证明,最大后验估计的结果是先验和最大似然估计的凸组合。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!