贝叶斯统计
贝叶斯估计
1.总体信息:即总体分布或总体所属分布族给我们的信息。譬如,“总提示正太分布”这句话九个我们带来很多信息;它的密度函数是一条钟形曲线;它的一切阶矩都存在;基于正态分布有许多成熟的统计推断方法可供我们选用等。总体信息是很重要的信息,为了获取此种信息往往耗资巨大。
2.样本信息,即样本提供给我们的信息,这是最“新鲜”的信息,并且越多越好,我们希望通过样本对总体分布或总体的某些特种做出较精确的统计推断。没有样本,就没有统计学可言。
基于以上两种信息统计推断的统计学就称为经典统计学。前述的矩估计、最大似然估计、最小方差无偏估计等都属于经典统计学范畴。然而我们周围还存在第三种信息-先验信息,它也可用于统计推断。
3.先验信息,即在抽样之前有关统计问题的一些信息。一般来说,先验信息来源于经验和历史资料。先验信息在日常生活和工作中都很重要的,人们自觉或不自居地在使用它。
贝叶斯公式的密度函数形式
1.依赖于参数θ的密度函数在经典统计中记为P(x;θ),它表示参数空间θ中不同的θ对应不同的分布。在贝叶斯统计中应记为p(x|θ),它表示随机变量θ给定某个值时,X的条件密度函数。
2.根据参数θ的先验信息确定先验分布π(θ)
3.从贝叶斯观点看,样本x=(x1,x2,…,xn)的产生要分两步进行。首先,设想从先验分布π(θ)产生一个样本θ’。这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二部从p(x|θ’)中产生一个样本x=(x1,x2,…,xn)。这时候样本x的联合条件密度函数为:
p(x|θ’)=p(x1,x2,…,xn|θ’)= ∏p(x|θ’)
这个联合分布综合了总体信息和样本信息,又称为似然函数。它与最大似然估计中的似然函数并没有什么不同。
4.由于θ’是设想出来的,仍然是未知的,它是按先验分布π(θ)产生的。为把先验信息综合进去,不能只考虑θ’,对θ的其他值发生的可能性也要加以考虑,故要用π(θ)进行综合,这样一来,样本x与参数θ的联合分布为:
H(x,θ)=p(x|θ)π(θ)
这个联合分布把三种可用信息都综合进去了。
5.我们的任务是要对未知参数θ作统计推断。在没有样本信息时,我们只能依据先验分布π(θ)对θ作出判断。在有了样本观察值之后,我们应依据h(x,θ)对θ作出推断。它的计算公式为:
π(θ|x)= p(x|θ)π(θ)/∫θ p(x|θ)π(θ)dθ
这就是贝叶斯公式的密度函数形式。这个条件分布称为θ的后验分布,它集中了总体、样本和先验中有关θ的一切信息。
共轭先验分布
先验分布的确定在贝叶斯统计推断中是关键的一部,它会影响最后的贝叶斯统计推断结果。先验分布确定原则有二:一是根据先验信息(经验和历史资料);二是要使用方便,即在数学上处理方便。在具体操作时,人们可首先假定先验分布来自于数学上易于处理的一个分布族,然后再依据已有的先验信息从该分布族中挑选一个作为未知参数的先验分布。具体操作见下面的例子。
先验分布的确定现已有一些较为成熟的方法,具体有
共轭先验分布,无信息先验分布,多层先验分布等。
设θ是某分布中的一个参数,π(θ)是其先验分布。假如由抽样信息算得的后验分布π(θ|x)与π(θ)同属于一个分布族,则称π(θ)是θ的共轭先验分布。
常用的共轭先验分布
总体分布
参数
共轭先验分布
二项分布
成功概率
贝塔分布
泊松分布
均值
伽马分布
指数分布
均值
伽马分布
正态分布(方差已知)
均值
正态分布
正态分布(方差未知)
均值
倒伽马分布
注:若X~Γ(α,λ),则1/X的分布称为倒伽马分布。
贝叶斯估计
后验分布π(θ|x)综合了总体分布p(x|θ)、样本x和先验π(θ)中有关θ的信息,如今要寻求参数θ的估计θ^,只需要从后验分布π(θ|x)合理提取信息即可。常用的方法就是用后验均方误差准则,即选择这样的统计量
θ=θ(x1,x2,…,xn)
使得后验均方误差达到最小,即
MSE(θ^|x)=Eθ|x (θ^-θ)²=min
这表明在均方误差准则下,θ的贝叶斯估计θ^就是θ的后验期望。这时的最小后验均方误差不是别的,恰好是后验方差。
决策问题
例一位投资者有一笔资金要进行投资,有如下几个投资方案可供选择:
a1:购买股票,根据市场情况可净赚5000,但也可能亏损10000.
a2:购买基金,根据市场情况可净赚3000,但也可能亏损8000.
a3:存入银行,不管市场如何,总可净赚1000.
他应如何决策?
收益矩阵如下:
统计决策三要素
样本空间与样本分布族
取值样本空间内的随机变量X以及其分布族{f(x,θ),θ属于参数空间}构成统计决策问题的第一个要素,其中f(x,θ)是x的概率函数,θ是未知参数,X是总体的简单样本。
行动空间
决策者或统计工作者对某个统计决策问题可能采取的行动所构成的非空集合,被称为行动空间。在估计问题中,行动空间由一切估计量构成。在检验问题中,行动空间只有两个构成,即接受或者拒绝原假设。
损失函数
损失函数是定义于参数空间行动空间上的非负函数,记为L(a,θ).它表示参数∈参数空间时,采取行动a所承受的损失。损失函数的类型有很多,常用的有“平方损失”,“绝对值损失”和“线性损失”等。在上述例子中:损失函数 L(a1,θ)=5000θ1-10000*θ2
在贝叶斯统计决策问题中,除上式三要素外还应增加第四个要素:
先验分布
定义在参数空间上的先验分布函数Fπ (θ)。
决策函数和风险函数
定义于样本空间内而取值于行动空间内的函数称为决策函数或判决函数。
设δ是采取决策行动,若参数为θ,则造成的损失是L(δ,θ),这个量与样本x有关,因而是随机的。故采取行动δ的效果用平均损失去度量是相对合理的。这就引入了如下风险函数的概念
设δ是一个决策函数,称平均损失
R(δ,θ)=E[L(δ(X),θ)]=∫x L(δ(X),θ)f(x,θ)dx
为δ的风险函数。
一致最优决策函数,记R(δ,θ)为决策函数δ的风险函数。若存在一个决策函数δ*,使得对任一决策函数δ有
R(δ*,θ)≤R(δ,θ)
则称(δ*为一致最优解或一致最优决策函数。
若一致最优解存在,则毫无疑问应当采用它。但是除了某些例外情形,一致最优解通常不存在。因此必须把标准放宽些,引进一些比一致最优准则更弱的优良性准则。
贝叶斯准则
设R(δ,θ)为δ的风险函数,H(θ)为θ的先验分布,则称
RH(δ )=Eθ [R(δ,θ)]=∫θ R(δ,θ)dH(θ)
为δ的贝叶斯风险。
设δ1和δ2是θ的两个决策函数,若RH(δ1 )≤RH(δ2),则称δ1在贝叶斯风险下优于δ2。若存在δ*,使得对任一决策函数δ有
RH(δ* )≤RH(δ )
则称δ*为所考虑的统计决策问题的贝叶斯解。
Minimax准则
设δ为一个决策函数,R(δ,θ)为其风险函数,令
M(δ)=supR(δ,θ)
易见M(δ)表示采用决策函数δ时所遭受的最大风险。如果在某项应用中,使这个最大风险尽可能小是很重要的,就可以指定如下准则,通常称为Minimax准则。
设δ为在先验分布H(θ)之下的贝叶斯解,且δ的风险函数为常数c,即对任何θ∈参数空间有RH(δ* ,θ)=c,则称δ*为一个Minimax解。
设δk为一个统计决策问题在先验分布Hk之下的贝叶斯解,假定δk的贝叶斯风险为rk,k=1,2,3…,且有
Limrk=r<无穷
又设δ*为同一问题的一个决策函数,满足条件
M(δ*)≤r,
则δ*为此统计决策问题中的Minimax解。
来源:CSDN
作者:weixin_45781827
链接:https://blog.csdn.net/weixin_45781827/article/details/103569199