[机器学习] 朴素贝叶斯分类

荒凉一梦 提交于 2020-02-27 14:26:22

贝叶斯决策理论

一个数据集,分为两类,其中每个样本的分类我们都已知晓
在这里插入图片描述
一个新的点(x,y)(x, y),其分类未知。
按照什么方式来决定将这个点分到一类中呢?我们提出如下规则:

  • 如果p1(x,y)>p2(x,y)p_1(x,y)>p_2(x,y),则(x,y)(x,y)为红色(p1p_1)一类。
  • 如果p2(x,y)>p1(x,y)p_2(x,y)>p_1(x,y),则(x,y)(x,y)为蓝色(p2p_2)一类。

贝叶斯决策理论核心思想:选择具有最高概率的决策。

朴素贝叶斯分类

正式定义

  • x=x= {a1,a2,...,ama_1, a_2,...,a_m} 为一个待分类项,aia_ixx的每一个特征属性
  • 有类别集合C=C= {y1,y2,...,yny_1, y_2,...,y_n}
  • 计算p(y1x),p(y2x),...,p(ynx)p(y_1|x),p(y_2|x),...,p(y_n|x)
  • 如果p(ykx)=maxp(y_k|x)=max { p(y1x),p(y2x),...,p(ynx)p(y_1|x),p(y_2|x),...,p(y_n|x) },则xx\in yky_k

朴素贝叶斯假设:假设待分类项中所有特征属性相互条件独立

在这里插入图片描述
分母对于所有类别为常数,且各特征属性是条件独立的,故有:
在这里插入图片描述
拉普拉斯修正:为避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时要进行“平滑”处理。
在这里插入图片描述
NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单

理论上,NBC模型与其他分类方法相比具有最小的误差率。但事实上并非总是如此,因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响

自然语言讲究上下文,故假设中的相对独立一般不会存在。

但它仍是最常用、应用最广泛的分类算法之一

贝叶斯信念网

一些变量相关,另一些变量则相互独立

朴素贝叶斯是贝叶斯信念网的一个简单特例。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!