概率与统计
- 概率:在给定数据生成过程下观测研究数据的性质;模型和参数->数据;推理
- 统计:根据观测的数据,反向思考其数据的生成过程;数据->模型和参数:归纳
- 关系:概率论是统计学的数学基础,统计是对概率论的应用
描述统计和推断统计
- 描述统计:描绘或总结观察量基本情况(均值,方差,中位数,四分位数等)
- 推断统计:根据得到的部分数据推测总体数据的情况(参数统计,非参数统计,估计量,真实分布,经验分布)
“似然”与“概率”:
- 在英语中:似然(likelihood)和概率(probability)都指事件发生的可能性
- 在统计中:概率是已知参数,对结果可能性的预测,似然是已知结果,对参数是某一个值的可能性预测。
- 对于函数\(P(x|\theta)\)
- 如果\(\theta\)已知且保持不变,\(x\)是变量,则函数\(P(x|\theta)\)称为概率函数,表示不同\(x\)出现的概率
- 如果\(x\)已知且保持不变,\(\theta\)是变量,则函数\(P(x|\theta)\)称为似然函数,表示不同\(\theta\)下,\(x\)出现的概率,也记做\(L(\theta|x)\)或\(L(X;\theta)\)或\(f(x;\theta)\)
频率学派与贝叶斯学派
- 频率学派与贝叶斯学派只是解决问题的角度不同
- 频率学派从「自然」角度出发。认为模型的参数是客观的固定的, 样本信息来自总体,仅通过研究样本信息可以对总体信息做出合理的推断和估计,并且样本越多,就越准确
- 贝叶斯学派从「观察者」角度出发。认为未知参数可以先从主观角度来考虑,任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数
- 频率学派的代表是最大似然估计;贝叶斯学派的代表是最大后验概率估计。
- 频率派概率以频率为主体,贝叶斯概率以置信度为主体
贝叶斯公式:\(P(A|B)=\frac{P(B|A)}{P(B)}*P(A)\)
- \(P(A|B)\)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率,表示事件B发生后,事件A发生的置信度
- \(P(A)\)是A的先验概率或边缘概率,表示事件A发生的置信度
- \(P(B|A)\)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率,也被称作似然函数。
- \(P(B)\)是B的先验概率或边缘概率,称为标准化常量
- \(\frac{P(B|A)}{P(B)}\)称为标准似然比,表示事件B为事件A发生提供的支持程度
最大似然估计将参数\(\theta\)看做固定值,只是其值未知。思想是使得观测数据(样本)发生概率\(P(X|\theta)\)最大的\(\theta\)就是最好的\(\theta\)。
最大似然估计的求解步骤:
- 写出单个样本的似然
- 写出总体的似然函数\(L(X;\theta)\)
- 转成对数似然函数
- 求对数似然函数的最大值(求导,解似然方程)
最大似然函数认为\(\theta\)具有某种概率分布,称为先验分布,求解时除了要考虑似然函数\(P(X|\theta)\)之外,还要考虑\(\theta\)的先验分布\(P(\theta)\),因此其认为使\(P(X|\theta)P(\theta)\)取最大值的\(\theta\)就是最好的\(\theta\)
- 由于X的先验分布\(P(X)\)是固定的,所以最大化函数可以变为\(\frac{P(X|\theta)P(\theta)}{P(X)}=P(\theta|X)\)
最大后验概率估计的求解步骤:
- 确定参数的先验分布\(P(\theta)\)以及似然函数\(L(X;\theta)\)
- 确定参数的后验分布函数\(L(X;\theta)P(\theta)\)
- 将后验分布函数转换为对数函数
- 求对数函数的最大值(求导,解方程)
贝叶斯估计是最大后验估计的进一步扩展,此时不直接估计参数\(\theta\)的值,而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计,都求出了参数\(\theta\)的值,而贝叶斯估计则不是,贝叶斯估计扩展了极大后验概率估计MAP(一个是等于,一个是约等于)方法,它根据参数的先验分布\(P(\theta)\)和一系列观察X(先验分布\(P(X)\)是不可忽略),求出参数的后验分布\(P(\theta|X)\),然后求出的期望值,作为其最终值。另外还定义了参数的一个方差量,来评估参数估计的准确程度或者置信度。
贝叶斯估计的求解步骤:
- 确定参数的似然函数\(P(X|\theta)\)
- 确定参数的先验分布\(P(\theta)\),应是后验分布的共轭先验
- 根据贝叶斯公式求解参数的后验分布
- \(P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int P(X|\theta)P(\theta)d\theta}\)
- 求出贝叶斯估计值
- \(\hat{\theta}=\int \theta p(\theta|X)d\theta\)
当先验分布均匀之时(无信息先验,此时贝叶斯方法等同于频率方法),MAP估计与MLE相等。直观讲,它表征了最有可能值的任何先验知识的匮乏。在这一情况中,所有权重分配到似然函数,因此当我们把先验与似然相乘,由此得到的后验极其类似于似然。因此,最大似然方法可被看作一种特殊的MAP
随数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。而且可以证明,最大后验估计的结果是先验和最大似然估计的凸组合。