融合自训练和自监督方法,让文本丝般顺滑!|EMNLP 2020
原创作者:王少磊 文本顺滑(Disfluency Detection)的目的是删除自动语音识别(ASR)结果中的不顺滑的词,从而得到更自然和通顺的句子。 目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。 本文介绍一篇被EMNLP 2020录取的工作,在本工作中,作者首次尝试用无监督的方法来解决文本顺滑问题。 作者通过结合自训练(self-training)和自监督(self-supervised)两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。 论文名称: 《Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection》 论文作者:王少磊,王重元,车万翔,刘挺 论文链接:http://ir.hit.edu.cn/~slwang/emnlp2020.pdf 以下是论文一作王少磊对本文的亲自解读。 1 任务简介及动机 自动语音识别(ASR)得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解系统(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅的文本上训练的。