【概率知识】
事件独立:当事件x与事件y相互独立时,有 p(x,y|z)=p(x|z)*p(y|z) 成立
即事件x的发生与否 与 事件y发生与否 不相关,完全独立
条件概率:p(x|y)表示当事件y发生时候,事件x发生的概率
全概率公式:p(x)=p(x|y1)+p(x|y2).....
一种理解角度是:事件x发生的概率,是出现y1现象时x发生的概率+出现y2现象时x发生的概率.....
而y1,y2,y3....是所有可能出现现象的划分。
联合概率:p(x,y)=p(x|y)*p(y)=p(y|x)*p(x)
即两个事件同时发生的概率等于相应的条件概率和先验概率乘积
【贝叶斯定理】
案例:
p(A)表示一个地区疾病A的发生率
p(B)表示一个人尿检为阳性的概率
p(B|A)表示感染疾病A时尿检为阳性的概率
根据这些求解当一个人m尿检为阳性时候,患病的概率p(A|B)有多大?
根据日常认知,可以发现的现象:
- 如果该疾病当地发生率很低,那么m患病的概率可能性很小
- 如果该疾病当地发生率很高,那么m患病的概率可能性很高
- 如果患病时尿检为阳性概率很大,那么两者相关性较大,所以尿检为阳性时候,患病的概率也应该较大
- 如果患病时尿检为阳性概率很小,那么两者不太相关,那么尿检为阳性时,患病概率也不大
- 大量案例显示人员(无论是否患病)经常出现尿检为阳性,那么根据尿检为阳性不足以确定其患病
- 大量案例显示人员(无论是否患病)很少出现尿检为阳性,那么极少出现的阳性很大可能说患者患病
那么结合这些给出的一个计算预测模型就是:
p(患病的概率|尿检为阳性)=p(当地疾病的发生率)*p(尿检为阳性|患疾病)/p(尿检为阳性的概率)
这就是贝叶斯定理:根据先验知识和现象进行后验预测。
贝叶斯公式:
- p(A|B)后验概率表示出现现象B时,发生事件A的概率
- p(A)先验概率,通常通过大量事件统计A发生的概率
- p(B|A)当事件A发生时候,出现现象B的概率
- p(B)现象B发生的概率,通常采用全概率展开
p(A后验估计概率)=p(A先验概率)*校准率
校准率:p(出现B现象|发生A事件)/p(出现B现象)
贝叶斯公式反映了在生产生活中
根据一个事件A的发生概率(先验概率)以及一些现象(校准率)=》推算某现象出现时候事件A的可能发生概率
【朴素贝叶斯】
机器学习中一大类问题是分类问题,即给定一些特征输入,判断其最可能属于的类别
形式化描述为,针对一个给定n维特征输入X 其类别Y可能的属于c1,c2,c3......ck 先假设各个特征之间相互独立
首先计算每种类别的先验概率
p(Y=Ck) k=1,2,3....
以及相应类别对应的特征条件概率,根据条件独立,进行展开
根据贝叶斯公式,进一步需要计算相应特征X=x发生的概率
可以采取全概率公式展开:
根据贝叶斯定理,当给定X=x特征输入时,样本属于Y=Ck类别的后验概率计算公式为:
由于对于给定的特征输入X=x ,那么 p(X=x)是确定,计算属于不同类别的概率,上述式子分母大小是不变的
因此只要比较其它项目即可,那么变为以下问题求解:
argmax Ck:
而p(X=x|Y=Ck)由于特征之间相互独立,可以展开为乘积计算即:
进一步求对数,使得乘积可以展开即:
问题变为寻找最大Ck使得上述式子最大
至此,可以根据输入特征X,以及其它条件,计算出样本的最大可能类别
朴素贝叶斯的特点
- 模型简单稳定,效果优良,适用于特征之间相关性较小的情形
- 当特征之间相关性较大时,分类准确率下降明显
来源:CSDN
作者:一只老风铃
链接:https://blog.csdn.net/qq_33369979/article/details/103646801