贝叶斯决策理论
一个数据集,分为两类,其中每个样本的分类我们都已知晓
一个新的点,其分类未知。
按照什么方式来决定将这个点分到一类中呢?我们提出如下规则:
- 如果,则为红色()一类。
- 如果,则为蓝色()一类。
贝叶斯决策理论核心思想:选择具有最高概率的决策。
朴素贝叶斯分类
正式定义
- 设 {} 为一个待分类项,为的每一个特征属性
- 有类别集合 {}
- 计算
- 如果 { },则
朴素贝叶斯假设:假设待分类项中所有特征属性相互条件独立
分母对于所有类别为常数,且各特征属性是条件独立的,故有:
拉普拉斯修正:为避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时要进行“平滑”处理。
NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
理论上,NBC模型与其他分类方法相比具有最小的误差率。但事实上并非总是如此,因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
自然语言讲究上下文,故假设中的相对独立一般不会存在。
但它仍是最常用、应用最广泛的分类算法之一
贝叶斯信念网
一些变量相关,另一些变量则相互独立
朴素贝叶斯是贝叶斯信念网的一个简单特例。
来源:CSDN
作者:番茄牛腩煲
链接:https://blog.csdn.net/cumina/article/details/104533322