HMM、MEMM、CRF模型比较和标注偏置问题(Label Bias Problem)
本文转自:http://www.cnblogs.com/syx-1987/p/4077325.html 路径1-1-1-1的概率: 0.4*0.45*0.5=0.09 路径2-2-2-2的概率 : 0.018 路径 1-2-1-2:0.06 路径 1-1-2-2:0.066 由此可得最优路径为 1-1-1-1 而实际上,在上图中,状态 1偏向于转移到状态 2,而状态 2总倾向于停留在状态 2,这就是所谓的标注偏置问题, 由于分支数不同, 概率的分布不均衡,导致状态的转移存在不公平 的情况。 PS:标注偏置问题存在于最大熵马尔可夫模型(MEMM)中,虽然MEMM解决了HMM 输出独立性假设的问题 ,但是只解决了 观察值独立的问题 , 状态之间的假设 则是 标注偏置问题产生的根源,CRF则解决了标注偏置问题,是HMM模型的进一步优化。 HMM模型中存在两个假设: 一是输出观察值之间严格独立,二是状态的转移过程中当前状态只与前一状态有关(一阶马尔可夫模型) 。 MEMM模型克服了观察值之间严格独立产生的问题,但是由于状态之间的假设理论,使得该模型存在标注偏置问题。 CRF模型解决了标注偏置问题,去除了HMM中两个不合理的假设,当然,模型相应得也变复杂了。 这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率