事实上,概率模型的训练过程就是参数估计(parameter estimation)的过程。对于参数的估计,统计学界的两个学派提供了不同的解决方案【1】:
- 频率主义学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值;
- 贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
贝叶斯学派统计思维 vs 频率学派统计思维
完全理解为什么在我们使用贝叶斯统计的时候,要求首先理解频率统计失败的地方。大多数人在听到“概率”这个词的时候,频率统计是首先想到的统计类型。它涉及应用一些数学理论来分析事件发生的概率,明确地说,我们唯一计算的数据是先验数据(prior data)。
举个例子,假设我给了你一个骰子,问你掷出6点的几率是多少,大多数人都会说是六分之一。但是,如果有人给你个特定的骰子总能掷出6个点呢?因为频率分析仅仅考虑之前的数据,而给你作弊的骰子的因素并没有被考虑进去。贝叶斯统计确实考虑了这一点,我们可以通过贝叶斯法则来进行说明:
这里
E: 当前发生的现象(evidence), 本例中是“投掷骰子,出现点数6”;
H:某种假设(hypothesis),本例中指“筛子处于正常状态”;
P(E)是特定现象发生的先验概率,例如本例中“骰子出现点数6”。
P(H)是正常或正确的状态出现的先验概率。本例中就是“假设骰子正常”的概率;
P(E|H)是骰子在正常状态下,点数6出现的概率;一般是1/6
P(H|E)是当前骰子点数6出现的概率的现象下,筛子处于正常状态的概率。
因此,替换到本例的Bayes公式可以表示为:
在方程中的概率P(H)基本上是我们的频率分析,给定之前的关于事件发生概率的数据。根据频率分析得到的信息,实质上是现象正确(正常)的概率。但是,如果你要掷骰子10000次并且前1000次全部掷出了6个点,那么你要考虑骰子作弊可能性了。因此贝叶斯学派善于利用过去的先验知识和样本数据进行逻辑归纳推理出参数;而频率学派仅仅利用了现有样本数据来估计,样本越多,参数越趋近于一个固定的常数。
因此,我们可以总结如下:
两个学派主要的争论焦点在于:
1. 贝叶斯学派主张把待估参数θ视为随机变量,而频率学派则认为应把θ看作常数;本例中这个参数就是“筛子所处的状态”。频率学派只考虑了“筛子正常状态”,所以它是一个常量,而Bayes学派则认为筛子的状态是随机变量;
2. 待估参数θ在抽样观测前就具有先验分布,而频率学派认为任何模型都不存在先验(因为既然是常量,就是一定发生的事情,概率为1)。
那么,什么时候考虑使用Bayes统计呢?当你觉得之前的数据不能很好地代表未来的数据和结果的时候,就应该使用贝叶斯统计方法。
参考:
1、《机器学习》 周志华
来源:oschina
链接:https://my.oschina.net/u/3889482/blog/4791555