先验概率

贝叶斯、概率分布与机器学习

浪子不回头ぞ 提交于 2020-03-21 06:39:35
本文由LeftNotEasy原创,可以转载,但请保留出处和此行,如果有商业用途,请联系作者 wheeleast@gmail.com 一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法,最常见的就是贝叶斯定理。 贝叶斯定理的发现过程我没有找到相应的资料,不过我相信托马斯.贝叶斯(1702-1761)是通过生活中的一些小问题去发现这个对后世影响深远的定理的,而且我相信贝叶斯发现这个定理的时候,还不知道它居然有这么大的威力呢。下面我用一个小例子来推出贝叶斯定理: 已知:有N个苹果,和M个梨子,苹果为黄色的概率为20%,梨子为黄色的概率为80%,问,假如我在这堆水果中观察到了一个黄色的水果,问这个水果是梨子的概率是多少。 用数学的语言来表达,就是已知P(apple) = N / (N + M), P(pear) = M / (N + M), P(yellow|apple) = 20%, P(yellow|pear) = 80%, 求P(pear|yellow). 要想得到这个答案,我们需要 1. 要求出全部水果中为黄色的水果数目。 2. 求出黄色的梨子数目 对于1) 我们可以得到 P(yellow) * (N + M), P

5.机器学习之朴素贝叶斯详解

强颜欢笑 提交于 2020-03-18 01:11:41
本篇博客主要详细介绍朴素贝叶斯模型。首先贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类器。而朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。并且,朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提(这个假设在实际应用中往往是不成立的),就会导致算法精度在某种程度上受影响。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,是经典的机器学习算法之一。最为广泛的两种分类模型是决策树(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 历史背景解读: 18世纪英国数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:

贝叶斯先验概率和后验概率

陌路散爱 提交于 2020-03-02 07:23:28
前言: 贝叶斯公式究竟是什么意思,在现实中的含义是什么,什么是先验概率,什么是后验概率? 问题: 如下图所示:在一个群体中,有20个人。感冒5人,流感6人,脑膜炎4人,脑瘫3人,正常2人。 以B为例,解释一下。B表示感冒,感冒人数是5人,其中2人头疼。 现在问题是:当一个人头疼,判断这个人是感冒的概率? 解答: 1:(ABCDEF都表示事件),A表示头疼,B是感冒,C表示流感,D表示脑膜炎,E表示脑瘫,F是正常 2:因此,我们的问题就是求解 ,由贝叶斯定理我们知道: 其中: 表示在事件A发生的情况下,事件B发生的概率。 3:一个人头疼肯定是由上述5中情况导致的,因此由全概率公式,我们知道: 即: 4:从上面的图可以统计出来 , , , , 以 为例,它表示在感冒时头疼的概率,共5人感冒,2人头疼,则 , , , , , , , 则 其中,P(A)还有一个算法,就是用(总的头疼人数)除以(总的人数),同样也是0.5 5: ,因此我们知道当一个人头疼的时候,这个人感冒的概率是0.2 同样的方式计算 , , , 所以,当一个人头疼时,他感冒的概率是0.2,流感的概率是0.4,脑膜炎的概率是0.3,脑瘫的概率是0.1,正常的概率是 0,就是说只有这个人头疼,他就不可能是正常人,一定是患病的,这很好解释,因为正常人不会头疼。 总结: 通过这个例子可以发现,当我们要解答“一个人头疼

后验概率和极大似然估计

谁说我不能喝 提交于 2020-02-24 14:22:23
后验概率 后验概率是指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的“果”,后验概率的计算要以先验概率为基础。 例如,后验概率 p ( y = 1 ∣ x ) p(y=1|x) p ( y = 1 ∣ x ) 的意思是:拿到 x x x 后, y = 1 y=1 y = 1 的概率( x x x 分类为类别 1 1 1 的概率) 极大似然估计 极大似然估计是求估计的一种方法。 求解步骤: 写出似然函数 对似然函数取对数,并整理 求导数 解似然方程 来源: CSDN 作者: 刘阳不吃饭 链接: https://blog.csdn.net/iiiliuyang/article/details/104444443

通俗理解LDA主题模型

回眸只為那壹抹淺笑 提交于 2020-02-12 04:57:22
通俗理解LDA主题模型 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长( 如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路,则非常easy陷入LDA的细枝末节之中 ),还是由于当中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会 第8期 上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西(但理解了LDA之后。再看沈博主题模型的 PPT 会非常赞)。 直到昨日下午。 机器学习班 第12次课上,邹讲完LDA之后,才真正明确LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后,思路清晰了。知道理解LDA。能够分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA

task5 贝叶斯

爱⌒轻易说出口 提交于 2020-01-26 08:33:15
知识点梳理¶ 相关概念(生成模型、判别模型) 先验概率、条件概率 贝叶斯决策理论 贝叶斯定理公式 极值问题情况下的每个类的分类概率 下溢问题如何解决 零概率问题如何解决? 优缺点 sklearn 自带代码块 from sklearn . naive_bayes import GaussianNB from sklearn . datasets import load_iris import pandas as pd from sklearn . model_selection import train_test_split iris = load_iris ( ) X_train , X_test , y_train , y_test = train_test_split ( iris . data , iris . target , test_size = 0.2 ) clf = GaussianNB ( ) . fit ( X_train , y_train ) print ( "Classifier Score:" , clf . score ( X_test , y_test ) ) 相关概念 生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中

基于贝叶斯估计的星级得分排名

风格不统一 提交于 2020-01-25 11:41:12
问题阐述 互联网早已成为人们生活的一部分,没事在网上看看电影、逛逛淘宝、定定外卖(有时间还是要多出去走走)。互联网的确为我们提供了非常多的便利,但它毕竟是一个虚拟的环境,具有更多的不确定性,大多数情况下我们只能通过别人的评论及打分来判别某个商品的好坏。五星打分是许多网站采用的商品排名方法,它也是消费者最直观最简单的评价尺度,我想大部分人都会去点击那些星级排名比较高的商品以最大限度降低我们的顾虑。 多数情况下,星级排名都能准确的反映一个商品的好坏,因为它是多人的一个综合得分,减小了个人偏好的影响。但是这里有一个前提条件,即打分的人要足够多。 考虑下面两种商品: 1.A商品的星级平均得分为5(1位评论者) 2.B商品的星级平均得分为4.1(87位评论者) A、B两种商品谁的得分排名更高呢?我想大部分都认为B应该排在A的前面吧,尽管B的平均星级得分要低于A,但是它有更多的体验人数,其得分更具有说服力。 现在我们已经明白,一个商品的排名应同时考虑它的星级得分与评论人数。那么我们应该如何将二者结合起来呢?也许会有人想到,我们可以给评论人数设定一个阀值,使得小于该阀值的商品,其排名会相对较低。上述过程可以使用下面的式子来表达: 这里的 m代表平均星级得分,n代表打分的人数,k代表修正的阀值。K值该如何确定呢,它在某些极端的情况下准吗?这些都有待进一步考证。这里我们不采用该方法

概率、统计、最大似然估计、最大后验估计、贝叶斯定理、朴素贝叶斯、贝叶斯网络

匆匆过客 提交于 2020-01-18 02:17:58
这里写自定义目录标题 概率和统计是一个东西吗? 概率函数与似然函数 最大似然估计(MLE) 最大后验概率估计 最大后验估计的例子 贝叶斯派观点 VS 频率派观点 贝叶斯定理 朴素贝叶斯分类器 朴素贝叶斯分类器实例 贝叶斯网络 贝叶斯网络的结构形式 因子图 从贝叶斯网络来观察朴素贝叶斯 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计是,有一堆数据,要利用这堆数据去预测模型和参数。 仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然, 本文解释的MLE(最大似然估计)和MAP(最大后验估计)都是统计领域的问题。它们都是用来推测参数的方法(不是推测模型

CVPR 2018 | 商汤科技论文详解:基于空间特征调制的图像超分辨率(很重要!!语义信息加入进去)

此生再无相见时 提交于 2020-01-11 12:48:38
在底层视觉算法领域,商汤科技提出的 面向生成更自然真实纹理图像的超分辨率算法 。本文为商汤科技CVPR 2018论文解读第3期。 论文:Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform 作者:Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy 论文链接: https:// arxiv.org/abs/1804.0281 5 Project page: http:// mmlab.ie.cuhk.edu.hk/pr ojects/SFTGAN/ 简介 单帧图像超分辨率旨在基于单张低分辨率图像恢复对应的高分辨率图像。卷积神经网络近年在图像超分辨率任务中表现出了优异的重建效果,但是恢复出自然而真实的纹理依然是超分辨率任务中的一大挑战。 如何恢复出自然而真实的纹理呢?一个有效的方式是考虑语义类别先验,即使用图像中不同区域所属的语义类别作为图像超分辨率的先验条件,比如天空、草地、水、建筑、森林、山、植物等。不同类别下的纹理拥有各自独特的特性,换句话说,语义类别能够更好的约束超分辨中同一低分辨率图存在多个可能解的情况。如图1中展示的建筑和植物的例子,它们的低分辨率图像块非常类似。虽然结合生成对抗式网络(GAN)进行超分复原

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

♀尐吖头ヾ 提交于 2020-01-08 23:15:48
目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。在实际研究中,也是通过观察数据,推测模型是高斯分布的、指数分布的、拉普拉斯分布的等,然后,可以进一步研究,推测模型参数。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 2. 先验概率 百度百科定义:先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。 维基百科定义: 在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑"观测数据"前,能表达p不确定性的概率分布。 可以看到二者定义有一个共同点,即先验概率是不依靠观测数据的概率分布,也就是与其他因素独立的分布。所以可以用 \(P(θ)\) 表示。