绪论

贝叶斯学派的最基本的观点是:任一个未知量\(\theta\)都可看作一个随机变量,应该用一个概率分布去描述对\(\theta\)的未知状况。这个概率分布是在抽样前就有的关于\(\theta\)的先验信息的概率称述。
似然函数属于联合密度函数，综合了总体信息和样本信息

\[ L(\theta^\prime)=p(X|\theta^\prime)=\prod_{i=1}^n p(x_i|\theta^\prime) \]

贝叶斯公式的密度函数形式与离散形式，其中\(\theta\)的条件分布称为\(\theta\)的后验分布，集中了总体、样本和先验等三种信息中有关\(\theta\)的一切信息，排除了与之无关的信息。一般先验分布\(\pi(\theta)\)反映人们抽样前的认识，通过抽样信息（总体信息和样本信息）对先验进行调整形成后验分布。

\[ \pi(\theta|\pmb{x})=\frac{p(\pmb{x}|\theta)\pi(\theta)}{h(\pmb{x},\theta)}=\frac{p(\pmb{x}|\theta)\pi(\theta)}{\int_{\Theta} {p(\pmb{x}|\theta)\pi(\theta)}\rm d\theta} \]

\[ \pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta)}{\sum_{j} {p(x|\theta_j)\pi(\theta_j)}} \]

贝叶斯假设，对无信息时，可认为\(\theta\)在区间(0,1)的均匀分布

\[ \pi(\theta)=\begin{cases}1, 0<\theta<1 \\ 0,其他场合 \end{cases} \]

重要分布
- 二项分布：重复n次独立的伯努利试验，每次试验的成功概率为p，当试验次数为1时，二项分布服从0-1分布，其分布为：\(P(X=k)=C^k_n p^k(1-p)^{n-k}\), 常用于观察单位只能具有相互对立的一种结果的猜测活动。
- 指数分布：描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程，具有无记忆的关键性质。常用于描述对发生的缺陷数或系统故障数的测量结果，但不能作为机械零件功能参数的分布规律。密度函数为：\(f(x)=\lambda e^{-\lambda x};x>0\)
- 泊松分布：适合于描述单位时间内随机事件发生的次数。概率函数为：\(P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\);k=0,1.... 当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。
- 贝塔分布，也称B分布，定义在(0,1) 区间的连续概率分布，其概率密度函数为：\(f(x;\alpha,\beta)=\frac{Γ(\alpha+\beta)}{Γ(\alpha)Γ(\beta)}x^{\alpha-1}(1-x^{\beta-1})=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x^{\beta-1})\)，其中贝塔函数\(B(\alpha,\beta)=\int_0^1 x^{\alpha-1}(1-x^{\beta-1})dx=\frac{Γ(\alpha)Γ(\beta)}{Γ(\alpha+\beta)}\)，Γ为伽马函数\(Γ(x)=\int_0^{+\infty} t^{x-1}e^{-t}dt;(x>0)\)，贝塔分布的核为\(\theta^{\alpha-1}(1-\theta)^{\beta-1}\)(注意区分二项分布的核\(\theta^{x}(1-\theta)^{n-x}\)中x为变量，贝塔分布中\(\theta\)是变量)
- 伽马分布\(Ga(\alpha,\lambda)\)，其中\(\alpha\)>0为形状参数，\(\lambda>0\)为尺度参数，其密度函数为\(p(x|\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}\)，通过此可以得到\(Y=X^{-1}\)的密度函数：\(p(y|\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\frac{1}{x}^{\alpha+1}e^{\frac{-\lambda}{x}}\)，称为倒伽马分布记为\(IGa(\alpha,\lambda)\)
指数分布簇
- 形如 \(f_X(x|\theta) = h(x)\ g(\theta) \exp[\ \eta(\theta) \cdot T(x)\ ]\)
- 包含如正态分布、多项式分布、泊松分布、伽马分布、指数分布、贝塔分布和 Dirichlet 分布等

共轭先验

设\(\theta\)是总体分布中的参数(或参数向量)，\(\pi(\theta)\)是\(\theta\)的先验密度函数,假如由抽样信息算得的后验密度函数与\(\pi(\theta)\)有相同的函数形式,则称\(\pi(\theta)\)是\(\theta\)的(自然)共轭先验分布。通过这种方式计算得到的后验分布的一些参数可以很好解释。共轭先验分布的选区是由似然函数所含的\(\theta\)因式所决定，即选与似然函数(\(\theta\)的函数)具有相同核的分布作为先验分布。
- 正态均值(方差已知)的共轭先验分布是正态分布。可以理解为：后验均值是在先验均值与样本均值间采取折衷方案，在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度，则后验分布的精度是样本均值分布的精度与先验分布精度之和，增加样本量n或减少先验分布方差都有利于提高后验分布的精度。
\[ 先验知识\theta \sim N(\mu,\tau^2) 总体分布x \sim N(\theta,\sigma^2)样本 \overline{x}, \sigma_0^2=\frac{\sigma^2}{n}\\ 后验知识\pi(\theta|\pmb{x}) \sim N(\mu_1,\tau_1^2) \\ \]

\[ \mu_1=\frac{\frac{\mu}{\tau^2}+\frac{\overline{x}}{\sigma_0^2}}{ \frac{1}{\tau^2}+\frac{1}{\sigma_0^2} } \\ \frac{1}{\tau_1^2}=\frac{1}{\tau^2}+\frac{1}{\sigma_0^2} \]
- 二项分布的成功概率\(\theta\)的共轭先验分布是贝塔分布
\[ 先验\theta \sim Be(\alpha,\beta)总体X \sim b(n,\theta)\\ 后验\pi(\theta|\pmb{x}) \sim Be(\alpha+x,\beta+n-x) \]

\[ E(\theta|x)=\frac{\alpha+x}{\alpha+\beta+n}=\frac{n}{\alpha+\beta+n}\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\frac{\alpha}{\alpha+\beta} \\ Var(\theta|x)\approx \frac1n \frac{x}{n}(1-\frac{x}{n}) \]
- 常用共轭先验分布

在单参数指数族场合,使用共轭先验分布得后验均值一定值于先验均值与样本均值(或样本方差等)之间。
后验分布的计算：由于\(m(x)\)不依赖于\(\theta\)，在计算时仅起到正则化因子的作用，\[\pi(\theta|\pmb{x}) \propto p(\pmb{x}|\theta)\pi(\theta)\]，其中各因子提取出仅与\(\theta\)有关的称为核。计算时可以略去与\(\theta\)无关的因子。
先验分布的选取，应以合理性作为首要原则

确定先验信息

超参数：先验分布中所含的未知参数称为超参数。无信息先验分布一般不含超参数。

确定超参数的估计值
- 利用先验矩（根据历史若干个估计值，进行加工整理，得到相关值，估计值来源一般为专家经验）
- 利用先验分位数（确定两个分位数，得到方程式，解得相关值）
- 利用先验矩和先验分位数
多参数模型（实际问题中常有多个未知参数，而一般不关注的参数称为讨厌参数）
- 正态均值与正态方差的(联合)共轭先验分布为正态-逆伽马分布记为\(N-IGa(v_n,\mu_n\sigma_n^2)\)
充分统计量
- 设x是来自分布函数\(F(x|\theta)\)的一个样本，\(T=T(x)\)是统计量，假如在给定T(x)的条件下，x的条件分布与\(\theta\)无关的话,则称该统计量为\(\theta\)的充分统计量。
- 设\(x\)为密度函数\(p(x|\theta)\)的一个样本，\(T(x)\)为\(\theta\)的充分统计量的充要条件是，用样本分布\(p(x|\theta)\)算得的后验分布与统计量\(T(x)\)算得的后验分布是相同的。如二维统计量\(T=(\overline{x},Q)\)恰好是量\((\mu,\sigma^2)\)的充分统计量。
- 使用充分统计量可以简化数据、降低样本维数，从而简化后验分布的计算。

贝叶斯估计

条件方法

后验分布是在样本x给定下θ的条件分布,基于后验分布的统计推断就意味着只考虑已出现的数据(样本观察值),而认为未出现的数据与推断无关，这一重要的观点被称为“条件观点“,基于这种观点提出的统计推断方法被称为条件方法。

贝叶斯估计

从后验分布中选用某个特征量作为θ的估计。使后验密度达到最大的值\(\theta_{MG}\)称为最大后验估计;后验分布的中位数\(\theta_{Me}\)称为\(\theta\)的后验中位数估计;后验分布的期望值\(\theta_{E}\)称为θ的后验期望估计,这三个估计也都称为θ的贝叶斯估计,记为\(\theta_{B}\),在不引起混乱时也记为\(\theta_{0}\)。实际中，一般采用后验期望估计作为贝叶斯估计。
- 估计的误差。取后验均值可使后验均方差达到最小。

柯西分布期望不存在

区间估计

对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法寻求的置信区间常受到批评。

可信区间：

设参数\(\theta\)的后验分布为\(\pi(\theta|x)\)，给定样本x和概率α (0<α<1)，若存在这样两个统计量\(\theta_U\) \(\theta_L\)，使得\(P(\theta_L \le \theta \le \theta_U | x) > 1-\alpha\)，则称区间[\(\theta_U\) ,\(\theta_L\) ]为\(\theta\)的可信水平为\(1-\alpha\)的贝叶斯可信区间，即参数\(\theta\)的\(1-\alpha\)的可信区间。仿照经典方法，可以得到\(1-\alpha\)的单侧可信下限和\(1-\alpha\)的单侧可信上限。
- 贝叶斯方法可信区间的寻求，较经典统计方法更简单。
- 经典统计求得的是置信区间，而贝叶斯得到的是可信区间，可信区间更符合理解和解释。
最大后验密度(HPD)可信区间

区间长度最短，并把具有最大后验密度的点都包含在区间内，而区间外的点上的后验密度函数值不超过区间内的后验密度函数值
- 若后验密度函数是单峰对称的，则\((1-\alpha)HPD\)可信空间为等尾可信区间，单峰不对称需要计算机器辅助计算；多峰则可能出现可信区间不连续的情况。
- PS：当后验密度函数出现多峰时，常常是由于先验信息与抽样信息不一致引起的，而共轭先验分布大多是单峰的，这必导致后验分布也是单峰的，它可能会掩盖这种不一致信息，故而要慎重对待和使用共轭先验分布。
假设检验

获得后验分布后，计算两个假设H0与H1的后验概率，然后比较两者的大小，即观察后验概率比\(\alpha_0/\alpha_1\)，从中选择最大概率的一方；但当两者相接近时需要进一步抽样或搜集信息。此种方法可推广到三个及以上的假设状况。
贝叶斯因子，既依赖于样本数据x，还依赖于先验分布\(\pi\)，这会减弱先验的影响，突出数据的影响；贝叶斯因子体现了数据支持某假设的程度。贝叶斯因子对样本信息变化的反应是灵敏的，而对先验信息变化的反应是迟钝的。
\[ B^\pi(x)=\frac{\text{后验机会比}}{\text{先验机会比}}=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{\alpha_0\pi_1}{\pi_0\alpha_1} \]
- 简单对简单（参数假设为特定值）
  
  \[ B^\pi(x)=\frac{\alpha_0\pi_1}{\pi_0\alpha_1}=\frac{p(x|\theta_0)}{p(x|\theta_1)} \]
- 复杂对复杂（参数假设为特定区间，使用g(θ)约束θ的范围表示θ的分布情况，特别的取两个区间θ的极大似然估计代替g(θ)的加权结果可以得到经典统计的似然比统计量）

简单对复杂（综合前两种情况的思维，将特定值转化为以特定值附近区间）

由于此类情况的贝叶斯因子计算简单，可以使用其计算得到θ的后验分布：

以上的三种可以拓展到多重假设问题，PS: 针对现实问题，需要根据已知的信息和分布特定，设定总体分布和先验函数。
预测（对随机变量未来观察值做出统计推断，一般先获得变量分布，再取期望、中位数、众数、一定区间等作为预测值）预测值的方差一般大于实测值的方差。
- 如果无样本观察数据，则使用先验分布获得随机变量 x 的边缘分布m(x)。
- 如果有样本观察数据，则使用先验分布求得后验分布，再计算随机变量 x 的后验预测分布m(x|x)。

如果有样本观察数据，并估计同参数的另一个随机变量，则使用先验分布获得随机变量 z 的后验预测分布m(z|x)。

似然原理当x的样本值给出时，似然函数为\(L(\theta)=p(x|\theta)=\prod_{i=1}^n p(x_i|\theta)\) 这是一个关于θ的函数，使似然函数在参数空间取最值的\(\hat{\theta}\)称为最大似然估计。
- 有了观测值后，似然函数L(θ)包含了所有与试验有关的θ的信息；
- 如果两个似然函数成比例，比例函数与θ无关，则两者包含θ的信息相同

先验分布的确定

主观概率(人们根据经验对一个事件发生可能性的个人信念，对取值范围是离散时更有效)
- 对立事件比较
- 专家意见（询问专家时需要设计好问题，并对专家有一定的了解便于修正形成自己的主观概率，或者向多个专家咨询综合修正）
- 历史资料
利用先验信息（参数空间连续）
- 等分区间统计各区间的频率，绘制直方图
- 选定先验密度后再估计超参数
- 定分度与变分度
利用边缘分布m(x)
- 边缘分布可以看作是混合分布（多个总体加权平均）的推广，如果p(x|θ)已知，则m(x)可以反映先验函数的合理性；
- 把\(m^\pi\)作为先验函数\(\pi\)的似然函数，通过极大似然法选取\(\pi\)，这种方法称为二型极大似然先验。如果先验密度函数形式已知，则求解先验函数中的超参数即可。
- 矩方法(先验函数形式已知时，利用先验矩和边缘分布矩的关系建立方程寻求超参数的估计值)
无信息先验与广义先验分布

贝叶斯决策

决策三要素：状态集合、行动集、收益函数Q
行动的容许性：行动集中只存在容许的行动（有选择地可能，有存在地必要）
决策准则：悲观准则(max min)、乐观准则(max max)、折中准则（乐观系数）
损失函数L = max(Q) - Q "该赚却没赚到的钱"。损失函数包含了较多的信息，使用其做决策将更为合理
先验期望准则：以收益函数在先验信息下得到的先验期望收益，取最大处为最优行动（与收益函数的原点和单位无关）；或以损失函数在先验信息下得到的先验损失，取最大处为最优行动。两种方式只用到了先验信息，故只能使用正常的先验分布，而不能使用广义先验分布。
把损失函数引入贝叶斯统计推断，就构成了贝叶斯决策问题。
后验风险准则：损失函数对后验分布的期望称为后验风险R，以后验风险最小处为最优行动（和样本有关，故是一个决策函数），此时的决策函数为贝叶斯解。
决策函数（从样本到决策的映射）与决策函数类