4 朴素贝叶斯法 | 易学教程

朴素贝叶斯法

朴素贝叶斯（naïve Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法，是一种生成模型。

朴素贝叶斯法通过训练数据集学习联合概率分布 P(X,Y)。具体地，学习先验概率分布 P（Y=c_k）及条件概率分布 P（X=x|Y=c_k）。于是得到联合概率分布 P(X=x,Y=y)=P（X=x|Y=y）• P（Y=y）

先验概率：事件发生前的预判概率，一般都是单独事件概率。如 P（Y）或 P（X）

后验概率：事件发生后求的反向条件概率；或者说，基于先验概率求得的反向条件概率。如 P（Y|X）

条件概率：一个事件发生后另一个事件发生的概率。如 P（X|Y）

实例：假设y是文章种类，是一个枚举值；x是向量，表示文章中各个单词的出现次数。

在拥有训练集的情况下，显然除了后验概率P(y|x)中的x来自一篇新文章无法得到，p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。

两者之间的关系：先验概率是获得后验概率的前提。

朴素贝叶斯法对条件概率分布作了条件独立性的假设：

朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布P(Y＝c_k|X＝x)，将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行：

于是，朴素贝叶斯分类器可表示为：

注意到，在上式中分母对所有C_k都是相同的，所以

朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数：

式中f(X)是分类决策函数。这时，期望风险函数为：

期望是对联合分布P(X,Y)取的。由此取条件期望：

为了使期望风险最小化，只需对 X＝x 逐个极小化，由此得到：

这样一来，根据期望风险最小化准则就得到了后验概率最大化准则：

即朴素贝叶斯法所采用的原理。

先验概率P(Y＝c_k)的极大似然估计是

条件概率P(x^(j)＝a_jl|Y＝c_k)的极大似然估计是

在得到先验概率和条件概率的极大似然估计之后，可以确定实例x的类：

用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地，条件概率的贝叶斯估计是

当λ=1 时，称为拉普拉斯平滑（Laplace smoothing）。

同样，先验概率的贝叶斯估计是

来源：https://www.cnblogs.com/xinxin86/p/11378997.html

标签