贝叶斯的三个参数估计

概率与统计

概率：在给定数据生成过程下观测研究数据的性质；模型和参数->数据；推理
统计：根据观测的数据，反向思考其数据的生成过程；数据->模型和参数：归纳
关系：概率论是统计学的数学基础，统计是对概率论的应用

描述统计和推断统计

描述统计：描绘或总结观察量基本情况（均值，方差，中位数，四分位数等）
推断统计：根据得到的部分数据推测总体数据的情况（参数统计，非参数统计，估计量，真实分布，经验分布）

“似然”与“概率”：

在英语中：似然（likelihood）和概率（probability）都指事件发生的可能性
在统计中：概率是已知参数，对结果可能性的预测，似然是已知结果，对参数是某一个值的可能性预测。
对于函数\(P(x|\theta)\)
- 如果\(\theta\)已知且保持不变，\(x\)是变量，则函数\(P(x|\theta)\)称为概率函数，表示不同\(x\)出现的概率
- 如果\(x\)已知且保持不变，\(\theta\)是变量，则函数\(P(x|\theta)\)称为似然函数，表示不同\(\theta\)下，\(x\)出现的概率，也记做\(L(\theta|x)\)或\(L(X;\theta)\)或\(f(x;\theta)\)

频率学派与贝叶斯学派

频率学派与贝叶斯学派只是解决问题的角度不同
频率学派从「自然」角度出发。认为模型的参数是客观的固定的, 样本信息来自总体，仅通过研究样本信息可以对总体信息做出合理的推断和估计，并且样本越多，就越准确
贝叶斯学派从「观察者」角度出发。认为未知参数可以先从主观角度来考虑，任何一个未知量都可以看作是随机的，应该用一个概率分布去描述未知参数
- 频率学派的代表是最大似然估计；贝叶斯学派的代表是最大后验概率估计。
- 频率派概率以频率为主体，贝叶斯概率以置信度为主体

贝叶斯公式：\(P(A|B)=\frac{P(B|A)}{P(B)}*P(A)\)

\(P(A|B)\)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率，表示事件B发生后，事件A发生的置信度
\(P(A)\)是A的先验概率或边缘概率，表示事件A发生的置信度
\(P(B|A)\)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率，也被称作似然函数。
\(P(B)\)是B的先验概率或边缘概率，称为标准化常量
\(\frac{P(B|A)}{P(B)}\)称为标准似然比，表示事件B为事件A发生提供的支持程度

最大似然估计将参数\(\theta\)看做固定值，只是其值未知。思想是使得观测数据（样本）发生概率\(P(X|\theta)\)最大的\(\theta\)就是最好的\(\theta\)。

最大似然估计的求解步骤：

写出单个样本的似然
写出总体的似然函数\(L(X;\theta)\)
转成对数似然函数
求对数似然函数的最大值（求导，解似然方程）

最大似然函数认为\(\theta\)具有某种概率分布，称为先验分布，求解时除了要考虑似然函数\(P(X|\theta)\)之外，还要考虑\(\theta\)的先验分布\(P(\theta)\)，因此其认为使\(P(X|\theta)P(\theta)\)取最大值的\(\theta\)就是最好的\(\theta\)

由于X的先验分布\(P(X)\)是固定的,所以最大化函数可以变为\(\frac{P(X|\theta)P(\theta)}{P(X)}=P(\theta|X)\)

最大后验概率估计的求解步骤：

确定参数的先验分布\(P(\theta)\)以及似然函数\(L(X;\theta)\)
确定参数的后验分布函数\(L(X;\theta)P(\theta)\)
将后验分布函数转换为对数函数
求对数函数的最大值（求导，解方程）

贝叶斯估计是最大后验估计的进一步扩展，此时不直接估计参数\(\theta\)的值，而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计，都求出了参数\(\theta\)的值，而贝叶斯估计则不是，贝叶斯估计扩展了极大后验概率估计MAP（一个是等于，一个是约等于）方法，它根据参数的先验分布\(P(\theta)\)和一系列观察X（先验分布\(P(X)\)是不可忽略），求出参数的后验分布\(P(\theta|X)\)，然后求出的期望值，作为其最终值。另外还定义了参数的一个方差量，来评估参数估计的准确程度或者置信度。
贝叶斯估计的求解步骤：

确定参数的似然函数\(P(X|\theta)\)
确定参数的先验分布\(P(\theta)\)，应是后验分布的共轭先验
根据贝叶斯公式求解参数的后验分布
- \(P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int P(X|\theta)P(\theta)d\theta}\)
求出贝叶斯估计值
- \(\hat{\theta}=\int \theta p(\theta|X)d\theta\)

当先验分布均匀之时(无信息先验,此时贝叶斯方法等同于频率方法)，MAP估计与MLE相等。直观讲，它表征了最有可能值的任何先验知识的匮乏。在这一情况中，所有权重分配到似然函数，因此当我们把先验与似然相乘，由此得到的后验极其类似于似然。因此，最大似然方法可被看作一种特殊的MAP

随数据的增加，先验的作用越来越弱，数据的作用越来越强，参数的分布会向着最大似然估计靠拢。而且可以证明，最大后验估计的结果是先验和最大似然估计的凸组合。

标签

贝叶斯

参数估计

似然函数

贝叶斯估计