4 朴素贝叶斯法

时光毁灭记忆、已成空白 提交于 2019-11-27 21:48:41

朴素贝叶斯法


 

朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法,是一种生成模型。
 

朴素贝叶斯法的学习与分类


 

基本方法

朴素贝叶斯法通过训练数据集学习联合概率分布 P(X,Y)。具体地,学习先验概率分布 P(Y=ck)及条件概率分布 P(X=x|Y=ck)。于是得到联合概率分布 P(X=x,Y=y)=P(X=x|Y=y)• P(Y=y)

先验概率:事件发生前的预判概率,一般都是单独事件概率。如 P(Y)或 P(X)

后验概率:事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。如 P(Y|X)

条件概率:一个事件发生后另一个事件发生的概率。如 P(X|Y)

实例:假设y是文章种类,是一个枚举值;x是向量,表示文章中各个单词的出现次数。

在拥有训练集的情况下,显然除了后验概率P(y|x)中的x来自一篇新文章无法得到,p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。

两者之间的关系:先验概率是获得后验概率的前提。

朴素贝叶斯法对条件概率分布作了条件独立性的假设:
 
 
朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布P(Y=ck|X=x),将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行:
 
 
于是,朴素贝叶斯分类器可表示为 :
 
 
注意到,在上式中分母对所有Ck都是相同的,所以
 
 

后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数: 
 
 
 
式中f(X)是分类决策函数。这时,期望风险函数为:
 
 
期望是对联合分布P(X,Y)取的。由此取条件期望:
 
 
 
为了使期望风险最小化,只需对 X=x 逐个极小化,由此得到:
 
 
这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:
 
 
即朴素贝叶斯法所采用的原理。 
 

朴素贝叶斯法的参数估计


 

极大似然估计 

先验概率P(Y=ck)的极大似然估计是
 
条件概率P(x(j)=ajl|Y=ck)的极大似然估计是
 
 

学习与分类算法

在得到先验概率和条件概率的极大似然估计之后,可以确定实例x的类:

贝叶斯估计 

用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地,条件概率的贝叶斯估计是 
 
 
当λ=1 时,称为拉普拉斯平滑(Laplace smoothing)。
同样,先验概率的贝叶斯估计是
 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!