论文阅读(三):Text2Sign: Towards Sign Language Production using Neural Machine Translation and GAN
- 阅读更多 关于 论文阅读(三):Text2Sign: Towards Sign Language Production using Neural Machine Translation and GAN
Abstract 概述 :我们提出了一种新的方法,利用最近的发展神经机器翻译(NMT),生成对抗性网络(GANs)和运动生成来生成手语。我们的系统能够从口语句子中生成手语视频。与当前依赖于大量注释数据的方法相反,我们的方法需要最少的注释和骨架级别的注释来进行培训,我们通过将任务分解为专门的子流程来实现这一点。 方法 :我们首先将一个NMT网络和一个运动图(MG)结合起来,将口语句子翻译成手语姿势序列。生成的姿态信息用于生成生成模型,生成逼真的手语视频序列。这是第一种不使用经典图形头像的连续符号视频生成方法。 数据集 :我们在PHOENIX14T手语翻译数据集上评估了我们的方法的翻译能力。 我们为文本到注释的翻译设置了基线,开发/测试集BLEU-4的分数为16.34/15.26。 我们还将使用广播质量评估指标,定性和定量地演示我们的方法对于多手势者和高清的视频生成功能。 Introduction 和口语一样,手语也有自己的语法规则和语言结构。这使得口语和手语之间的翻译成为一个复杂的问题,它不是简单地将文本映射到手势的逐字逐句的练习。图1演示了语言的标记化和它们的顺序是不同的,它需要机器翻译方法来找到一种口语和手语之间的映射,这需要考虑到它们的语言模型。 SLR的工作: 将手势序列映射为口语,提供手势序列的文本,如【17】【48】,那是因为觉得耳聋的人能自如地阅读口语