条件概率

条件概率与全概率公式

和自甴很熟 提交于 2020-04-06 09:48:15
1.条件概率:设A , B是两个事件,且P ( A )>0,称P ( B | A )= P ( AB ) P ( A )为在事件A发生的条件下事件 B发生的条件概率. 2.设Ω为试验 E的样本空间, B 1, B 2,…, Bn为 E的一组事件,若   ( 1) BiBj =⌀( i ≠ j ; i , j =1, 2,…, n );   ( 2) B 1∪ B 2∪…∪ Bn = Ω ,则称B 1, B 2,…, Bn为样本空间 Ω的一个划分,或称B 1, B 2,…, Bn为完备事件组. 3.全概率公式:设Ω为试验 E的样本空间, B 1, B 2,…, Bn为 Ω的一个划分,且P ( Bi )>0( i =1, 2,…, n ),则对任一事件A ,有P ( A )= P ( B 1) P( A | B 1)+ P ( B 2) P ( A | B 2)+…+ P ( Bn ) P ( A | Bn ). 4.贝叶斯公式:设 Ω 为试验 E 的样本空间, B 1, B 2,…, Bn 为 Ω 的一个划分,且P ( Bi )>0( i =1, 2,…, n ), A为任意随机事件, P ( A )>0,则 来源: https://www.cnblogs.com/1314-520/p/12640540.html

5.机器学习之朴素贝叶斯详解

强颜欢笑 提交于 2020-03-18 01:11:41
本篇博客主要详细介绍朴素贝叶斯模型。首先贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类器。而朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。并且,朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提(这个假设在实际应用中往往是不成立的),就会导致算法精度在某种程度上受影响。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,是经典的机器学习算法之一。最为广泛的两种分类模型是决策树(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 历史背景解读: 18世纪英国数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:

Machine Learning系列--CRF条件随机场总结

对着背影说爱祢 提交于 2020-03-02 22:57:08
根据《统计学习方法》一书中的描述,条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。 条件随机场是一种判别式模型。 一、理解条件随机场 1.1 HMM简单介绍 HMM即 隐马尔可夫模型 ,它是处理序列问题的统计学模型,描述的过程为:由隐马尔科夫链随机生成 不可观测的状态随机序列 ,然后各个状态分别生成一个观测,从而产生观测随机序列。 在这个过程中,不可观测的序列称为状态序列(state sequence), 由此产生的序列称为观测序列(observation sequence)。 该过程可通过下图描述: 上图中, $X_1,X_2,…X_T$是隐含序列,而$O_1, O_2,..O_T$是观察序列。 隐马尔可夫模型由三个概率确定: 初始概率分布 ,即初始的隐含状态的概率分布,记为$\pi$; 状态转移概率分布 ,即隐含状态间的转移概率分布, 记为$A$; 观测概率分布 ,即由隐含状态生成观测状态的概率分布, 记为$B$。 以上的三个概率分布可以说就是隐马尔可夫模型的参数,而根据这三个概率,能够确定一个隐马尔可夫模型$\lambda = (A, B, \pi)$。 而隐马尔科夫链的三个基本问题为: 概率计算问题 。即给定模型$\lambda = (A,

李航《统计学习方法》学习笔记——ch1统计学习概论

喜欢而已 提交于 2020-02-24 20:34:11
1. 统计学习概论 1.1. 概念 定义 统计学习假设数据存在一定统计规律,计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析一门学科。 主要内容 监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learnin)等。 三要素 模型(model) : 模型的假设空间 策略(strategy) : 模型选择的准则,即确定使用什么样的损失函数 算法(algorithm) : 模型学习的算法,即在最小化损失函数时求解模型参数的算法,如随机梯度下降算法。 术语 输入空间(input space) : 输入所有可能取值的集合 输出空间(output space) : 输出所有可能取值的集合 特征向量(feature vector) : 每一个具体输入的实例(instance),通常由特征向量表示 特征空间(feature space) :所有特征向量存在的空间,特征空间的每一维对应一个特征。 样本(sample) :输入与输出对,又称样本点。 假设空间(hypothesis space) :输入空间到输出空间的映射的集合,模型假设空间的确定意味着学习范围的确定。 注:(1)有时假设输入空间与特征空间为相同的空间;(2

动手深度学习PyTorch(十三)GloVe

女生的网名这么多〃 提交于 2020-02-23 04:32:41
全局向量的词嵌入(GloVe) 让我们先回顾一下word2vec中的跳字模型。将跳字模型中使用softmax运算表达的条件概率 P ( w j ∣ w i ) P(w_j\mid w_i) P ( w j ​ ∣ w i ​ ) 记作 q i j q_{ij} q i j ​ ,即 q i j = exp ⁡ ( u j ⊤ v i ) ∑ k ∈ V exp ( u k ⊤ v i ) , q_{ij}=\frac{\exp(\boldsymbol{u}_j^\top \boldsymbol{v}_i)}{ \sum_{k \in \mathcal{V}} \text{exp}(\boldsymbol{u}_k^\top \boldsymbol{v}_i)}, q i j ​ = ∑ k ∈ V ​ exp ( u k ⊤ ​ v i ​ ) exp ( u j ⊤ ​ v i ​ ) ​ , 其中 v i \boldsymbol{v}_i v i ​ 和 u i \boldsymbol{u}_i u i ​ 分别是索引为 i i i 的词 w i w_i w i ​ 作为中心词和背景词时的向量表示, V = { 0 , 1 , … , ∣ V ∣ − 1 } \mathcal{V} = \{0, 1, \ldots, |\mathcal{V}|-1\} V = { 0 , 1

统计学习方法 李航---第5章 决策树

北城以北 提交于 2020-02-06 04:58:44
第5章 决策树 决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习 定义5.1 (决策树) : 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。 图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则 可以将决策树看成一个if-then规则的集合,转换成if-then规则的过程:由决策树的根结点到叶结点的每一条路径构建一条规则

[白话解析] 深入浅出最大熵模型

。_饼干妹妹 提交于 2020-01-31 16:35:42
[白话解析] 深入浅出最大熵模型 0x00 摘要 本文将尽量使用易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来解释最大熵模型。并且从名著中找了几个具体应用场景来帮助大家深入这个概念。 0x01 背景概念 1. 什么是熵? 熵这个概念可以从多个角度来理解。 1.1 从物理学角度理解熵 熵最早来原于物理学。德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。即,熵是表示物质系统状态的一种度量,用它来表征系统的无序程度。 熵越大,系统越无序,意味着系统结构和运动的不确定和无规则; 熵越小,系统越有序,意味着系统具有确定和有规则的运动状态。 1.2 从系统复杂度理解熵 信息熵还可以作为一个系统复杂程度的度量,即物质系统有序化,组织化,复杂化状态的一种度量。 如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。 如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,对应的信息熵为0),此时的信息熵较小。 熵越大则该系统不确定性就越大,该系统未来发展就存在越多的可能性。 1.3 熵的推导&定义 熵的定义是:𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙)) 其中,𝑝(𝑥)代表随机事件𝑥的概率,H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量

task5 贝叶斯

爱⌒轻易说出口 提交于 2020-01-26 08:33:15
知识点梳理¶ 相关概念(生成模型、判别模型) 先验概率、条件概率 贝叶斯决策理论 贝叶斯定理公式 极值问题情况下的每个类的分类概率 下溢问题如何解决 零概率问题如何解决? 优缺点 sklearn 自带代码块 from sklearn . naive_bayes import GaussianNB from sklearn . datasets import load_iris import pandas as pd from sklearn . model_selection import train_test_split iris = load_iris ( ) X_train , X_test , y_train , y_test = train_test_split ( iris . data , iris . target , test_size = 0.2 ) clf = GaussianNB ( ) . fit ( X_train , y_train ) print ( "Classifier Score:" , clf . score ( X_test , y_test ) ) 相关概念 生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中

2.1 条件概率,全概率公式,Bayes公式

我的未来我决定 提交于 2020-01-23 21:28:03
2.1 条件概率,全概率公式,Bayes公式 1.条件概率 对概率的讨论总是限制在一组固定条件下进行。以前的讨论总是假设除此以外再无其余信息可供使用。然而,我们有时却需要考虑:已知某一事件 B B B 已经发生,要求在该情况下另一事件 A A A 发生的概率这样的情况。我们所需要计算的概率实际上是“在已知事件 B B B 发生的条件下,事件 A A A 发生的概率”,我们记这个概率为: P ( A ∣ B ) P(A|B) P ( A ∣ B ) . 定义2.1.1 (条件概率) 设 ( Ω , F , P ) (\Omega, \mathscr{F},P) ( Ω , F , P ) 为一个概率空间, B ∈ F B \in \mathscr{F} B ∈ F ,且 P ( B ) > 0 P(B)>0 P ( B ) > 0 ,则对任意 A ∈ F A \in \mathscr{F} A ∈ F ,记 P ( A ∣ B ) = P ( A B ) P ( B ) . P(A|B) = \frac{P(AB)}{P(B)}. P ( A ∣ B ) = P ( B ) P ( A B ) ​ . 并称 P ( A ∣ B ) P(A|B) P ( A ∣ B ) 为 在事件 B B B 发生的条件下事件 A A A 发生的条件概率 . 注: 未经特别指出,在出现条件概率 P (