一、相关概念:
- 先验概率:
是指事件发生前的预判概念,也可以说是“因”发生的概率,即表示为 P(X)。
- 条件概率:
是指事件发生后求得反向条件概率,也可以说是在“因”的条件下,“果”发生的概率,即表示为 P(Y|X)。
- 后验概率:
一个事件发生后导致另一个事件发生的概率,也可以说是在“果”出现的情况下,是什么“因”导致的概率,即表示为P(X|Y)。
- 似然概率:
类似于条件概率,即“因”的条件下,“果”发生的概率,即表示为 P(Y|X)。
- 贝叶斯定理:(又称条件概率定理)
P(Y∣X)=P(X)P(X∣Y)∗P(Y)
二、朴素贝叶斯法概述:
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于该模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y.
- 先验概率分布、条件概率分布、联合概率分布:
已知输入空间 χ⫅Rn 为 n 维向量的集合,输出空间为类标记集合 γ={c1,c2,...,cK} 。输入为特征向量 x,输出为类标记 y。 训练数据集为:T={(x1,y1),(x2,y2),(x3,y3),...,(xN,yN)}。
(1)先验概率分布:
P(Y=ck),k=1,2,3,...,K
(2)条件概率分布:
P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck),k=1,2,...,K
(3)联合概率分布:
朴素贝叶斯法通过训练数据集学习到联合概率分布P(X,Y).
P(X,Y)=P(Y=ck)P(X=x∣Y=ck),k=1,2,...,K
(4)后验概率分布:
P(Y=ck∣X=x)=∑kP(X=x∣Y=ck)∗P(Y=ck)P(X=x∣Y=ck)∗P(Y=ck)
- 条件独立性假设:
由于条件概率分布具有指数级数量的参数,其估计实际是不可行的。事实上,假设 x(j) 可取值 Sj个,其中 j=1,2,...,n,Y 可取值有K个,则联合分布概率的参数个数为:K∏j=1nSj.
所以,朴素贝叶斯法对条件概率分布作了条件独立性的假设,这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。条件独立性假设是指:
P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck)
=j=1∏nP(X(j)=x(j)∣Y=ck)
在条件独立性假设条件下:
(1)条件概率分布:
P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck)
=j=1∏nP(X(j)=x(j)∣Y=ck)
(2)后验概率分布:
P(Y=ck∣X=x)=∑kP(Y=ck)∗∏jP(X(j)=x(j)∣Y=ck)∏jP(X(j)=x(j)∣Y=ck)∗P(Y=ck)
(3)联合概率分布:
y=argmaxckP(Y=ck)∗j∏P(X(j)=x(j)∣Y=ck).
三、后验概率最大化的含义:
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数:
L(Y,f(X))={1,0,Y=f(X)Y=f(X)}
为了使期望风险最小化,只需要对X=x逐个极小化,根据期望风险最小化准则就得到了后验概率最大化准则:
y=argmaxckP(ck∣X=x)
即朴素贝叶斯法所采用的原理。
四、朴素贝叶斯算法的定义:
输入:训练集 T={(x1,y1),(x2,y2),(x3,y3),...,(xN,yN)};实例 x;
输出:实例 x 的分类。
(1)计算先验概率和条件概率:
P(Y=ck)=N∑i=1NI(yi=ck),k=1,2,3,...,K
P(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)∑i=1NI(xi(j)=ajl,yi=ck),k=1,2,3,...,K;j=1,2,...,n;l=1,2,...,Sj
(2)对给出的实例x={x(1),x(2),...,x(n)}计算联合概率分布:
P(Y=ck)∗j=1∏nP(X(j)=x(j)∣Y=ck),k=1,2,3,...,K
(3)根据最大值确定实例 x的类:
y=argmaxckP(Y=ck)∗j∏P(X(j)=x(j)∣Y=ck).
五、朴素贝叶斯法的参数估计:
- 极大似然估计:
(1)先验概率的极大似然估计:
P(Y=ck)=N∑i=1NI(yi=ck),k=1,2,3,...,K
(2)条件概率的极大似然估计:
P(X(j)=ajl∣Y=ck)=N∑i=1NI(xi(j)=ajl,yi=ck),k=1,2,3,...,K;j=1,2,...,n;l=1,2,...,Sj
- 贝叶斯估计:
(1)贝叶斯估计的极大似然估计:
P(Y=ck)=N+Kλ∑i=1NI(yi=ck)+λ,k=1,2,3,...,K
(2)贝叶斯估计的极大似然估计:
P(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=ajl,yi=ck)+λ,k=1,2,3,...,K;j=1,2,...,n;l=1,2,...,Sj