条件随机场

条件随机场CRF HMM,MEMM的区别

孤街醉人 提交于 2020-03-14 03:45:47
http://blog.sina.com.cn/s/blog_605f5b4f010109z3.html 首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像词性标注,True casing。但 隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择, 而最大熵隐马模型则解决了这一问题,可以任意的选择特征, 但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉 ,而条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是 所有特征进行全局归一化,因此可以求得全局的最优值。 目前,条件随机场的训练和解码的开源工具还只支持链式的序列,复杂的尚不支持,而且训练时间很长,但效果还可以。 这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移 概率和表现概率建立联合概率,统计时统计的是条件概率。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化,而CRF模型中,统计了全局概率,在 做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。 举个例子,对于一个标注任务,

条件随机场

对着背影说爱祢 提交于 2020-03-07 13:10:31
1、随机场(RF) 在概率论中,由样本空间Ω任意取样构成的随机变量X_i的集合S = {X_1,X_2, ..., X_n},对所有的ω∈Ω式子π(ω) > 0均成立,则称π为一个随机场。 2、马尔可夫随机场(MRF) 当随机变量具有依赖关系时,我们研究随机场才有实际的意义,具有马尔可夫性质的随机变量X_i的全联合概率分布模型,构成马尔可夫随机场。 马尔可夫随机场对应一个 无向图 G = (V, E) 。无向图上的每一个节点 v ∈ V 对应一个随机变量y,俩节点构成的边 {u, v} ∈ E 表示节点对应的随机变量 y_u, y_v 之间有概率依赖关系 P(y_u|y_v),并且依赖关系服从马尔可夫性——离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不大。因此,MRF的结构本质上反应了我们的先验知识——哪些变量之间有依赖关系需要考虑,而哪些可以忽略。 这样我们可以引入团的概念来定义一组具有依赖关系的随机变量(Y_c)。若无向图G一个节点集合中任意两个结点{u,v}均有连接,则该集合称为团C,若团C不能加入任意节点且同时满足均有连接的约束,则该团称为 最大团 。 那么无向图上的联合概率分布P(Y)可写作图中所有最大团C上的函数Y_c的乘积形式,即: 其中psai_c(Y_c)称为 势函数 ,它的定义为 3、条件随机场(CRF)

Machine Learning系列--CRF条件随机场总结

对着背影说爱祢 提交于 2020-03-02 22:57:08
根据《统计学习方法》一书中的描述,条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。 条件随机场是一种判别式模型。 一、理解条件随机场 1.1 HMM简单介绍 HMM即 隐马尔可夫模型 ,它是处理序列问题的统计学模型,描述的过程为:由隐马尔科夫链随机生成 不可观测的状态随机序列 ,然后各个状态分别生成一个观测,从而产生观测随机序列。 在这个过程中,不可观测的序列称为状态序列(state sequence), 由此产生的序列称为观测序列(observation sequence)。 该过程可通过下图描述: 上图中, $X_1,X_2,…X_T$是隐含序列,而$O_1, O_2,..O_T$是观察序列。 隐马尔可夫模型由三个概率确定: 初始概率分布 ,即初始的隐含状态的概率分布,记为$\pi$; 状态转移概率分布 ,即隐含状态间的转移概率分布, 记为$A$; 观测概率分布 ,即由隐含状态生成观测状态的概率分布, 记为$B$。 以上的三个概率分布可以说就是隐马尔可夫模型的参数,而根据这三个概率,能够确定一个隐马尔可夫模型$\lambda = (A, B, \pi)$。 而隐马尔科夫链的三个基本问题为: 概率计算问题 。即给定模型$\lambda = (A,

条件随机场CRF(二)

允我心安 提交于 2020-01-20 10:02:12
CRF主要涉及到三个问题,标记序列概率的计算、参数的学习、序列的预测(解码),本片博文主要介绍第一个问题:标记序列概率的计算–前向后向算法,在 博文 中提到,在BI-LSTM-CRF模型框架的CRF层,当计算序列所有路径的总得分时就用到了前向后向算法的思想。 CRF前向后向概率计算 首先定义 α i ( y i ∣ x ) \alpha_i(y_i|x) α i ​ ( y i ​ ∣ x ) 表示序列位置 i i i 的标记是 y i y_i y i ​ 时,在位置 i i i 之前的部分标记序列的非规范化概率。之所以是非规范化概率是因为我们不想加入一个不影响结果计算的规范化因子 Z ( x ) Z(x) Z ( x ) 在分母里面。 在 条件随机场CRF(一) 中,我们定义了下式: M i ( y i − 1 , y i ∣ x ) = e x p ( ∑ k = 1 K w k f k ( y i − 1 , y i , x , i ) ) M_i(y_{i-1},y_i |x) = exp(\sum\limits_{k=1}^Kw_kf_k(y_{i-1},y_i, x,i)) M i ​ ( y i − 1 ​ , y i ​ ∣ x ) = e x p ( k = 1 ∑ K ​ w k ​ f k ​ ( y i − 1 ​ , y i ​ , x , i ) )

条件随机场 摘要

风格不统一 提交于 2020-01-14 20:39:36
条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。 HMM引入了马尔科夫假设,即当前时刻的状态只与其前一时刻的状态有关,HMM是一种生成式概率图模型,条件随机场(CRF)与HMM不同,是一种判别式的概率图模型。CRF是在给定一组变量的情况下,求解另一组变量的条件概率的模型。 设X与Y是一组随机变量,P(Y,X)是给定随机变量X情况下,随机变量Y的条件概率。若随机变量Y构成一个无向图G(V,E),当X与Y两个随机变量的概率分布满足如下的条件: 则称在给定随机变量序列X的情况下,随机变量序列Y的条件概率P(Y,X)构成条件随机场。 注意在CRF的定义中,我们并没有要求 X X和 Y Y有相同的结构。而实现中,我们一般都假设 X X和 Y Y有相同的结构, X X和 Y Y有相同的结构的CRF就构成了线性链条件随机场(Linear chain Conditional Random Fields,以下简称 linear-CRF)。 在我们的十个词的句子的词性标记中,词有十个,词性也是十个,因此,如果我们假设它是一个马尔科夫随机场,那么它也就是一个linear-CRF。 来源: https://www.cnblogs.com/Christbao/p/12193736

条件随机场

人走茶凉 提交于 2019-12-05 12:24:46
马尔可夫随机场 概率图模型是由图表示的概率分布。概率无向图模型又称马尔可夫随机场(Markov random field),表示一个联合概率分布,其标准定义为: 设有联合概率分布 \(P(V)\) 由无向图 \(G=(V, E)\) 表示,图 \(G\) 中的节点表示随机变量,边表示随机变量间的依赖关系。如果联合概率分布 \(P(V)\) 满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。 成对马尔可夫性 设无向图 \(G\) 中的任意两个没有边连接的节点 \(u\) , \(v\) ,其他所有节点为 \(O\) ,成对马尔可夫性指:给定 \(Y_O\) 的条件下, \(Y_u\) 和 \(Y_v\) 条件独立 \[P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)\] 局部马尔可夫性 设无向图 \(G\) 的任一节点 \(v\) , \(W\) 是与 \(v\) 有边相连的所有节点, \(O\) 是 \(v\) 、 \(W\) 外的其他所有节点,局部马尔可夫性指:给定 \(Y_W\) 的条件下, \(Y_v\) 和 \(Y_O\) 条件独立 全局马尔可夫性 设节点集合 \(A\) 、 \(B\) 是在无向图 \(G\) 中被节点集合 \(C\) 分开的任意节点集合,全局马尔可夫性指:给定 \(Y_C\) 的条件下, \(Y_A

条件随机场简介

走远了吗. 提交于 2019-12-05 02:58:28
之前学习了隐马尔可夫模型,现在记录一下条件随机场。本文主要参考了《统计学习方法》,如有错误,请各位多多指教 1、什么是条件随机场 首先我们先了解什么是随机场。 在概率论中,随机场的定义为:由 样本空间 Ω = {0, 1, ..., G − 1}n取样构成的 随机变量 Xi所组成的S = {X1, ..., Xn}。若对所有的ω∈Ω下式均成立,则称π为一个随机场。更直白一点的理解是随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。就如一句话对他进行词性标注,先不论对错,只要对每个词标注了就形成一个随机场。 接着我们来了解什么是马尔科夫随机场。 先看《统计学习方法》中对马尔科夫随机场的定义。 概率无向图模型,又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。 图(graph)是由结点(node)及连接结点的边(edge)组成的集合。结点和边分别记作 v 和 e,结点和边的集合分别记作 V 和 E,图记作G=(V,E)。无向图是指边没有方向的图。设有联合概率分布P(Y),Y是一组随机变量。由无向图G=(V,E)表示概率分布P(Y),即在图G中,每个结点 v 表示一个随机变量Yv;每条边e表示随机变量之间的概率依赖关系。 定义:设有联合概率分布P(Y)由无向图G=(V,E)表示,在图G中,结点表示随机变量

轻松理解条件随机场

偶尔善良 提交于 2019-12-02 06:45:20
说明一下:下面这篇文章是我看过之后感觉非常好的一篇文章,不仅解释了CRF,还对CRF与逻辑回归和HMM的比较也做了一番说明,真的是相对精彩。我转载的文章是经过两次转载了,第一次转载的出处已经不存在了,我担心这篇文章消失了,所以就在这里再次转载了。 理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。 原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/] 想直接看英文的朋友可以直接点进去了。我在翻译时并没有拘泥于原文,许多地方都加入了自己的理解,用学术点的话说就是意译。(画外音:装什么装,快点开始吧。)好的,下面开始翻译! 假设你有许多小明同学一天内不同时段的照片,从小明提裤子起床到脱裤子睡觉各个时间段都有(小明是照片控!)。现在的任务是对这些照片进行分类。比如有的照片是吃饭,那就给它打上吃饭的标签;有的照片是跑步时拍的,那就打上跑步的标签;有的照片是开会时拍的,那就打上开会的标签。问题来了,你准备怎么干? 一个简单直观的办法就是,不管这些照片之间的时间顺序,想办法训练出一个多元分类器。就是用一些打好标签的照片作为训练数据,训练出一个模型

条件随机场CRF原理介绍 以及Keras实现

夙愿已清 提交于 2019-12-01 05:35:44
本文是对CRF基本原理的一个简明的介绍。当然,“简明”是相对而言中,要想真的弄清楚CRF,免不了要提及一些公式,如果只关心调用的读者,可以直接移到文末。 图示 # 按照之前的思路,我们依旧来对比一下普通的逐帧softmax和CRF的异同。 逐帧softmax # CRF主要用于序列标注问题,可以简单理解为是 给序列中的每一帧都进行分类 ,既然是分类,很自然想到将这个序列用CNN或者RNN进行编码后,接一个全连接层用softmax激活,如下图所示 逐帧softmax并没有直接考虑输出的上下文关联 条件随机场 # 然而,当我们设计标签时,比如用s、b、m、e的4个标签来做字标注法的分词,目标输出序列本身会带有一些上下文关联,比如s后面就不能接m和e,等等。逐标签softmax并没有考虑这种输出层面的上下文关联,所以它意味着把这些关联放到了编码层面,希望模型能自己学到这些内容,但有时候会“强模型所难”。 而CRF则更直接一点,它 将输出层面的关联分离了出来 ,这使得模型在学习上更为“从容”: CRF在输出端显式地考虑了上下文关联 数学 # 当然,如果仅仅是引入输出的关联,还不仅仅是CRF的全部,CRF的真正精巧的地方,是它 以路径为单位,考虑的是路径的概率 。 模型概要 # 假如一个输入有 n n 帧,每一帧的标签有 k k 种可能性,那么理论上就有 k n kn 中不同的输出

知识图谱 每日阅读(三)

社会主义新天地 提交于 2019-11-27 05:58:41
概率图模型 本节详细介绍一下概率图模型,概率图模型比如隐马尔可夫模型和条件随机场模型在实体识别、自然语言处理的过程中:分词、关键词提取部分都会用到。 首先概率图模型可大致分为两类:第一类是使用有向无环图表 示变量间的依赖关系,称为有向圈模型或贝叶斯网 (Bayesian network); 第二类 是使用无向国表示变量间的相关关系,称为无向图模型或马尔可夫网 (Markovnetwork). 隐马尔可夫模型 隐马尔可夫模型 (Hidden Markov Model,简称 HMM)是结构最筒单的动态 贝叶斯网 (dynamic Bayesian network),这是一种著名的有向图模型,主要用于 时序数据建模,在语音识别、自然语言处理等领域有广泛应用. 隐马尔可夫模型中的变量可分为两组.第一组是状态变量{y1,y2... yn}, 其中执 yi 表示第i时刻的系统状态.通常假定状态变量是隐 藏的、不可被观测的,因此状态变量亦称隐变量 (hidden variable). 第二组是观测变量{X1,X2,...,Xn}, 其中Xi表示第i时刻的观测值。隐马尔可夫模型中,系统通常在多个状态{s1,s2,.., sn} 之间转换,因此状态变量yi的取值范围 Y(称为状态空间)通常是有 N 个可能取值的高散空间.观测变量均可以 是离散型也可以是连续型,为便于讨论,我们仅考虑离散型观测变量