4 朴素贝叶斯法
朴素贝叶斯法 朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法,是一种生成模型。 朴素贝叶斯法的学习与分类 基本方法 朴素贝叶斯法通过训练数据集学习联合概率分布 P(X,Y)。具体地,学习先验概率分布 P(Y=c k )及条件概率分布 P(X=x|Y=c k )。于是得到联合概率分布 P(X=x,Y=y)=P(X=x|Y=y)• P(Y=y) 先验概率:事件发生前的预判概率,一般都是单独事件概率。如 P(Y)或 P(X) 后验概率:事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。如 P(Y|X) 条件概率:一个事件发生后另一个事件发生的概率。如 P(X|Y) 实例:假设y是文章种类,是一个枚举值;x是向量,表示文章中各个单词的出现次数。 在拥有训练集的情况下,显然除了后验概率P(y|x)中的x来自一篇新文章无法得到,p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。 两者之间的关系:先验概率是获得后验概率的前提。 朴素贝叶斯法对条件概率分布作了条件独立性的假设: 朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布P(Y=c k |X=x),将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行: 于是,朴素贝叶斯分类器可表示为 : 注意到,在上式中分母对所有C k 都是相同的,所以