条件概率

条件随机场简介

走远了吗. 提交于 2019-12-05 02:58:28
之前学习了隐马尔可夫模型,现在记录一下条件随机场。本文主要参考了《统计学习方法》,如有错误,请各位多多指教 1、什么是条件随机场 首先我们先了解什么是随机场。 在概率论中,随机场的定义为:由 样本空间 Ω = {0, 1, ..., G − 1}n取样构成的 随机变量 Xi所组成的S = {X1, ..., Xn}。若对所有的ω∈Ω下式均成立,则称π为一个随机场。更直白一点的理解是随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。就如一句话对他进行词性标注,先不论对错,只要对每个词标注了就形成一个随机场。 接着我们来了解什么是马尔科夫随机场。 先看《统计学习方法》中对马尔科夫随机场的定义。 概率无向图模型,又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。 图(graph)是由结点(node)及连接结点的边(edge)组成的集合。结点和边分别记作 v 和 e,结点和边的集合分别记作 V 和 E,图记作G=(V,E)。无向图是指边没有方向的图。设有联合概率分布P(Y),Y是一组随机变量。由无向图G=(V,E)表示概率分布P(Y),即在图G中,每个结点 v 表示一个随机变量Yv;每条边e表示随机变量之间的概率依赖关系。 定义:设有联合概率分布P(Y)由无向图G=(V,E)表示,在图G中,结点表示随机变量

最大似然估计、最大后验估计与朴素贝叶斯分类算法

你。 提交于 2019-12-02 22:40:25
最大似然估计、最大后验估计与朴素贝叶斯分类算法 目录   一、前言   二、概率论基础   三、最大似然估计   四、最大后验估计   五、朴素贝叶斯分类   六、参考文献 一、前言   本篇文章的主要内容为笔者对概率论基础内容的回顾,及个人对其中一些知识点的解读。另外,在这些上述知识的基础之上,回顾了概率推断的基础内容最大似然估计与最大后验估计。最后,文章的结尾回顾了朴素贝叶斯分类方法的基本流程,并且用一个小案例来帮助读者更好地掌握该方法的基本流程。 二、概率论基础 (1)概率   定义[1]:设E是随机实验,S是它的样本空间。对于E的每一个事件A赋予一个实数,记为P(A),称为事件A的概率,如果集和函数P(.)满足如下条件:   (1)非负性:对每一个事件A,有P(A)>=0;   (2)规范性:对于必然事件S,有p(S)=1;   (3)可列可加性:设A1,A2,...是两两互不相容的事件,即对于AiAj=Ø,i≠j,i,j=1,2,...,有:   P(A1∪A2∪A3...)=P(A1)+P(A2)+P(A3)+.... (2)随机变量    一个随机变量指的是一个可以随机地取多种数值的的变量,本文中使用大写字母来表示随机变量,其取值则用小写字母表示,如:随机变量X,可以取值为{x 1 ,x 2 ,x 3 ,...}。随机变量只是一种对随机现象所有可能状态的表示

掘金笔记:朴素贝叶斯模型

瘦欲@ 提交于 2019-12-02 02:12:44
# 朴素贝叶斯模型 ## 1 - 基础定理与定义 - 条件概率公式: $$ P(A|B)=\dfrac{P(AB)}{P(B)} $$ - 全概率公式: $$ P(A)=\sum_{j=1}^N P(AB_i)=\sum_{j=1}^N P(B_i)P(A|B_i) $$ - 贝叶斯公式: $$ P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^N P(B_i)P(A|B_i)} $$ - 概率加和规则: $$ P\left(X=x_i\right)=\sum_{j=1}^N P\left(X=x_i,Y=y_j\right) $$ $$ P\left(X\right)=\sum_Y P\left(X,Y\right) $$ - 概率乘积规则: $$ P\left(X=x_i,Y=y_j\right)=P\left(Y=y_j|X=x_i\right)P\left(X=x_i\right) $$ $$ P\left(X,Y\right)=P\left(Y|X\right)P\left(X\right) $$ - 生成学习方法: 利用训练数据学习$P(X|Y)$和$P(Y)$的估计,得到联合概率分布: $$ P(X,Y)=P(Y)P(X|Y) $$ 然后求得后验概率分布$P(Y|X)$.

word2vec预训练词向量

守給你的承諾、 提交于 2019-11-30 23:06:41
NLP中的Word2Vec讲解   word2vec是Google开源的一款用于词向量计算 的工具,可以很好的度量词与词之间的相似性;   word2vec建模是指用 CBoW模型 或 Skip-gram模型 来计算不同 词语的向量(word vector)    CBoW是给定上下文来预测输入词、Skip-gram给定输入词预测上下文,但最终都会得到词向量矩阵W 上图为词向量的部分可视化结构 Statistical Language Model (统计语言模型)    在深入word2vec之前,首先回顾下nlp中的一个基本问题: 如何计算一段文本序列在某种语言下出现的概率?(Ngram) 统计语言模型给出了这一类问题的一个基本解决框架。对于一段文本序列: 它的概率可表示为: 即将序列的联合概率转化为一系列条件概率的乘积。问题变成了如何去预测这些给定previous words下的条件概率:                          由于其巨大的参数空间,这样一个原始的模型在实际中并没有什么用。我们更多的是采用其简化版本——Ngram模型:   常见的如bigram模型(N=2)和tirgram模型(N=3)。事实上,由于模型复杂度和预测精度的限制,我们很少会考虑N>3的模型。我们可以用最大似然法去求解Ngram模型的参数——等价于去统计每个Ngram的条件词频

条件概率和链式法则 conditional probability & chain rule

蹲街弑〆低调 提交于 2019-11-30 06:23:29
顾名思义, 条件概率指的是某个事件在给定其他条件时发生的概率, 这个非常符合人的认知:我们通常就是在已知一定的信息(条件)情况下, 去估计某个事件可能发生的概率. 概率论中,用 | 表示条件, 条件概率可以通过下式计算得到 P(Y=y|X=x)=P(Y=y,X=x)P(X=x) P(Y=y|X=x)=P(Y=y,X=x)P(X=x) , 即 在 x 发生的条件下 y 发生的概率 等于 x,y 同时发生的联合概率 除以 x自身的概率. 注意, 必须满足 P(x)>0P(x)>0, 否则对于永远不会发生的事情讨论条件概率无意义. 基于条件概率, 任意多维随机变量的联合分布都可以写成其中任意一个随机变量的条件概率相乘的形式 P(x(1),...,x(n))=P(x(1))∏i=2nP(x(i)|x(1),...,x(i−1)) P(x(1),...,x(n))=P(x(1))∏i=2nP(x(i)|x(1),...,x(i−1)) , 具体而言, 对于一个三元分布 : P(a,b,c)=P(a|b,c)p(b,c)=P(a|b,c)P(b|c)P(c) P(a,b,c)=P(a|b,c)p(b,c)=P(a|b,c)P(b|c)P(c) , 这样通常很难直接得到的 P(a,b,c)P(a,b,c) 就分解为以下三个简单的情形乘积的形式: P(c):cP(c):c 发生的概率, 通常已知.