统计学习 贝叶斯分类

倾然丶 夕夏残阳落幕 提交于 2019-12-22 08:58:10

【概率知识】

事件独立:当事件x与事件y相互独立时,有 p(x,y|z)=p(x|z)*p(y|z)   成立

即事件x的发生与否 与 事件y发生与否 不相关,完全独立

条件概率:p(x|y)表示当事件y发生时候,事件x发生的概率

全概率公式:p(x)=p(x|y1)+p(x|y2).....

一种理解角度是:事件x发生的概率,是出现y1现象时x发生的概率+出现y2现象时x发生的概率.....

而y1,y2,y3....是所有可能出现现象的划分。

联合概率:p(x,y)=p(x|y)*p(y)=p(y|x)*p(x)

即两个事件同时发生的概率等于相应的条件概率和先验概率乘积

 

【贝叶斯定理】

案例:

p(A)表示一个地区疾病A的发生率

p(B)表示一个人尿检为阳性的概率

p(B|A)表示感染疾病A时尿检为阳性的概率

根据这些求解当一个人m尿检为阳性时候,患病的概率p(A|B)有多大

根据日常认知,可以发现的现象:

  • 如果该疾病当地发生率很低,那么m患病的概率可能性很小
  • 如果该疾病当地发生率很高,那么m患病的概率可能性很高
  • 如果患病时尿检为阳性概率很大,那么两者相关性较大,所以尿检为阳性时候,患病的概率也应该较大
  • 如果患病时尿检为阳性概率很小,那么两者不太相关,那么尿检为阳性时,患病概率也不大
  • 大量案例显示人员(无论是否患病)经常出现尿检为阳性,那么根据尿检为阳性不足以确定其患病
  • 大量案例显示人员(无论是否患病)很少出现尿检为阳性,那么极少出现的阳性很大可能说患者患病

那么结合这些给出的一个计算预测模型就是:

p(患病的概率|尿检为阳性)=p(当地疾病的发生率)*p(尿检为阳性|患疾病)/p(尿检为阳性的概率)

这就是贝叶斯定理:根据先验知识和现象进行后验预测。

贝叶斯公式:

​​​​​​​
  • p(A|B)后验概率表示出现现象B时,发生事件A的概率
  • p(A)先验概率,通常通过大量事件统计A发生的概率
  • p(B|A)当事件A发生时候,出现现象B的概率
  • p(B)现象B发生的概率,通常采用全概率展开

p(A后验估计概率)=p(A先验概率)*校准率

校准率:p(出现B现象|发生A事件)/p(出现B现象)

贝叶斯公式反映了在生产生活中

根据一个事件A的发生概率(先验概率)以及一些现象(校准率)=》推算某现象出现时候事件A的可能发生概率

【朴素贝叶斯】

机器学习中一大类问题是分类问题,即给定一些特征输入,判断其最可能属于的类别

形式化描述为,针对一个给定n维特征输入X 其类别Y可能的属于c1,c2,c3......ck   先假设各个特征之间相互独立

首先计算每种类别的先验概率

p(Y=Ck)  k=1,2,3....

以及相应类别对应的特征条件概率,根据条件独立,进行展开

根据贝叶斯公式,进一步需要计算相应特征X=x发生的概率

可以采取全概率公式展开:

根据贝叶斯定理,当给定X=x特征输入时,样本属于Y=Ck类别的后验概率计算公式为:

由于对于给定的特征输入X=x ,那么 p(X=x)是确定,计算属于不同类别的概率,上述式子分母大小是不变

因此只要比较其它项目即可,那么变为以下问题求解:

argmax Ck: 

而p(X=x|Y=Ck)由于特征之间相互独立,可以展开为乘积计算即:

进一步求对数,使得乘积可以展开即:

   

    

问题变为寻找最大Ck使得上述式子最大

至此,可以根据输入特征X,以及其它条件,计算出样本的最大可能类别

朴素贝叶斯的特点

  • 模型简单稳定,效果优良,适用于特征之间相关性较小的情形
  • 当特征之间相关性较大时,分类准确率下降明显

 

 

 

 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!