机器翻译

CH2-NLG应用之【机器翻译non-auto-regressive版】

谁都会走 提交于 2020-01-31 14:54:31
2018年,Gu等人提出了一种 新的机器翻译模型 ,这种模型不用再从左到右的顺序依次翻译了,使得翻译过程可以并行化。 模型本身依然是基于 Transformer 的,不同的是在测试时可以并行解码。模型结构如下图所示: 把并行计算结果时,不同位置之间的词独立带来的问题归结为训练样本中存在 multimodal target distribution的问题。找到一个很好的切入点,并通过引入隐含变量来降低mode的空间,帮助decoder进行decode。同时论文中采用 knowledge distillation 的方式,利用auto-regressive model来帮助模型进行训练,也是一个非常好的做法。最终使得,模型在 non-auto-regressive 的情况下,达到了 auto-regressive 模型的效果。 TODO具体的论文阅读 来源: CSDN 作者: 夏殇0808 链接: https://blog.csdn.net/u012328476/article/details/104122203

07:机器翻译

丶灬走出姿态 提交于 2020-01-31 08:38:04
总时间限制: 1000ms 内存限制: 65536kB 描述 小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章。 这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换。对于每个英文单词,软件会先在内存中查找这个单词的中文含义,如果内存中有,软件就会用它进行翻译;如果内存中没有,软件就会在外存中的词典内查找,查出单词的中文含义然后翻译,并将这个单词和译义放入内存,以备后续的查找和翻译。 假设内存中有M个单元,每单元能存放一个单词和译义。每当软件将一个新单词存入内存前,如果当前内存中已存入的单词数不超过M−1,软件会将新单词存入一个未使用的内存单元;若内存中已存入M 个单词,软件会清空最早进入内存的那个单词,腾出单元来,存放新单词。 假设一篇英语文章的长度为N个单词。给定这篇待译文章,翻译软件需要去外存查找多少次词典?假设在翻译开始前,内存中没有任何单词。 输入 输入文件共2行。每行中两个数之间用一个空格隔开。 第一行为两个正整数M和N,代表内存容量和文章的长度。 第二行为N个非负整数,按照文章的顺序,每个数(大小不超过1000)代表一个英文单词。文章中两个单词是同一个单词,当且仅当它们对应的非负整数相同。 对于10%的数据有M = 1,N ≤ 5。 对于100%的数据有0 < M ≤ 100,0 < N ≤ 1000。 输出 共1行

Nightmare中文文档(机器翻译)

你离开我真会死。 提交于 2020-01-29 23:47:45
Nightmare Nightmare is a high-level browser automation library from Segment . The goal is to expose a few simple methods that mimic user actions (like goto , type and click ), with an API that feels synchronous for each block of scripting, rather than deeply nested callbacks. It was originally designed for automating tasks across sites that don't have APIs, but is most often used for UI testing and crawling. Under the covers it uses Electron , which is similar to PhantomJS but roughly twice as fast and more modern. ⚠️ Security Warning: We've implemented many of the security recommendations

机器翻译(queue)

六眼飞鱼酱① 提交于 2020-01-17 02:34:02
题目背景 小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章。 题目描述 这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换。对于每个英文单词,软件会先在内存中查找这个单词的中文含义,如果内存中有,软件就会用它进行翻译;如果内存中没有,软件就会在外存中的词典内查找,查出单词的中文含义然后翻译,并将这个单词和译义放入内存,以备后续的查找和翻译。 假设内存中有MMM个单元,每单元能存放一个单词和译义。每当软件将一个新单词存入内存前,如果当前内存中已存入的单词数不超过M−1M-1M−1,软件会将新单词存入一个未使用的内存单元;若内存中已存入MMM个单词,软件会清空最早进入内存的那个单词,腾出单元来,存放新单词。 假设一篇英语文章的长度为NNN个单词。给定这篇待译文章,翻译软件需要去外存查找多少次词典?假设在翻译开始前,内存中没有任何单词。 输入格式 共222行。每行中两个数之间用一个空格隔开。 第一行为两个正整数M,NM,NM,N,代表内存容量和文章的长度。 第二行为NNN个非负整数,按照文章的顺序,每个数(大小不超过100010001000)代表一个英文单词。文章中两个单词是同一个单词,当且仅当它们对应的非负整数相同。 输出格式 一个整数,为软件需要查词典的次数。 输入输出样例 输入 #1 3 7 1 2 1 5 4 4 1 输出 ``

git help 机器翻译

☆樱花仙子☆ 提交于 2019-12-21 01:37:45
该篇发布仅为博主个人保存并参考,内容可能不对 usage: git [--version] [--help] [-C <path>] [-c <name>=<value>] # [版本] [帮助] [-C 路径] C<C<><>name = value) [--exec-path[=<path>]] [--html-path] [--man-path] [--info-path] [-p | --paginate | -P | --no-pager] [--no-replace-objects] [--bare] [--git-dir=<path>] [--work-tree=<path>] [--namespace=<name>] <command> [<args>] These are common Git commands used in various situations: #这些是在各种情况下使用的常见Git命令: start a working area (see also: git help tutorial) # 启动一个工作区域(参见:git帮助教程) clone Clone a repository into a new directory # 将存储库克隆到新目录中 init Create an empty Git repository or

机器翻译系统,主要划分为哪几大类型?

梦想与她 提交于 2019-12-15 19:43:03
直到20世纪80年代,一些机器翻译系统采用了两种方法:在这些方法中,源语言文本被分析转换成抽象表达形式,随后利用一些程序,通过识别词结构(词法分析)和句子结构(句法分析)解决歧义问题。其中有一种方法将抽象表达设计为一种与具体语种无关的“中间语言”,可以作为许多自然语言的中介。这样,翻译就分成两个阶段:从源语言到中间语言,从中间语言到目标语言。另一种更常用的间接方法是将源语言表达转化或为目标语言的等价表达形式。这样,翻译便分成三个阶段:分析输入文本并将它表达为抽象的漏语源语言转换成抽象的目标语言;最后,生成目标语言。 机器翻译系统主要分为6种类型,具体如下: 1.直译式机器翻译系统,通过快速的分析和双语词典,将原文译出,并且重新排列译文的词汇,以符合译文的句法。 2.规则式机器翻译系统,是先分析原文内容,产生原文的句法结构,再转换成译文的句法结构,最后再生成译文。 3.中介语式机器翻译系统,先生成一种中介的表达方式,而非特定语言的结构,再由中介的表达式转换成译文。 4.知识库式机器翻译系统,是建立一个翻译需要的知识库,构成翻译专家系统。 5.统计式机器翻译系统,源语言中任何一个句子都可能与目标语言中的某些句子相似,这些句子的相似程度可能都不相同,统计式机器翻译系统能找到最相似的句子。 6.范例式机器翻译系统,是将过去的翻译结果当成范例,产生一个范例库,在翻译一段文字时

机器翻译论文列表及其笔记

☆樱花仙子☆ 提交于 2019-12-13 15:03:56
Machine Translation 2017-12 Oda et al. - 2017 - Neural Machine Translation via Binary Code Predict [pdf] [note] Kalchbrenner et al. - 2016 - Neural machine translation in linear time [pdf] [pdf (annotated)] [note] 2018-05 Sutskever et al. - 2014 - Sequence to Sequence Learning with Neural Networks [pdf] Cho et al. - 2014 - Learning Phrase Representations using RNN Encoder-Decoder for NMT [pdf] Bahdanau et al. - 2014 - NMT by Jointly Learning to Align and Translate [pdf] Luong et al. - 2015 - Effective Approaches to Attention-based NMT [pdf] 2018-06 Gehring et al. - 2017 - Convolutional

P1540 机器翻译(C++)

巧了我就是萌 提交于 2019-12-13 14:58:33
题目背景 小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章。 题目描述 这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换。对于每个英文单词,软件会先在内存中查找这个单词的中文含义,如果内存中有,软件就会用它进行翻译;如果内存中没有,软件就会在外存中的词典内查找,查出单词的中文含义然后翻译,并将这个单词和译义放入内存,以备后续的查找和翻译。 假设内存中有M个单元,每单元能存放一个单词和译义。每当软件将一个新单词存入内存前,如果当前内存中已存入的单词数不超过M-1,软件会将新单词存入一个未使用的内存单元;若内存中已存入M个单词,软件会清空最早进入内存的那个单词,腾出单元来,存放新单词。 假设一篇英语文章的长度为N个单词。给定这篇待译文章,翻译软件需要去外存查找多少次词典?假设在翻译开始前,内存中没有任何单词。 输入格式 共2行。每行中两个数之间用一个空格隔开。 第一行为两个正整数M,N,代表内存容量和文章的长度。 第二行为N个非负整数,按照文章的顺序,每个数(大小不超过1000)代表一个英文单词。文章中两个单词是同一个单词,当且仅当它们对应的非负整数相同。 输出格式 一个整数,为软件需要查词典的次数。 输入输出样例 输入 #1 3 7 1 2 1 5 4 4 1 输出 #1 5 说明/提示 每个测试点1s 对于10%的数据有M=1,N

自然语言处理相关技术文献资源汇集

混江龙づ霸主 提交于 2019-12-09 22:47:18
1、ACL Anthology A Digital Archive of Research Papers in Computational Linguistics and Natural Language Processing 旧版: http://aclweb.org/anthology/ 新版: http://aclanthology.info/ 2、ACL Anthology Network http://clair.eecs.umich.edu/aan/index.php 3、ACL Wiki http://www.aclweb.org/aclwiki 4、Machine Translation Archive Electronic repository and bibliography of articles, books and papers on topics in machine translation, computer translation systems, and computerbased translation tools http://www.mt-archive.info/ 5、Text Retrieval Conference(TREC) http://trec.nist.gov/ 6、LREC Conference The

机器翻译Transformer实战:利用nvidia-docker和Tensorflow Serving快速部署一个基于Tensor2Tensor的神经机器翻译服务

假如想象 提交于 2019-12-04 03:48:22
Docker目前也只是跑通,能进行基本的使用。 如果有需求,还可以使用Docker GPU版本,可以使用GPU。 以GPU版本为例: 卸载原有的Docker sudo apt-get remove docker sudo apt-get remove docker-ce sudo apt-get remove docker docker-engine docker.io containerd runc 本机环境 nvidia驱动:最新版 Ubuntu16.04 Python3.6 Tensor2Tensor 1.9 #不要下载最新版,只支持TF1.13.0 Tensorflow 1.12.0 #(可不安装) Tensorflow-gpu 1.12.0 CUDA 9.0.176 cudnn 7.0.5 pip3 最新版 Tensorflow安装(默认已安装好对应的CUDA和cudnn版本) sudo pip3 install tensorflow==1.12 #(可不安装) sudo pip3 install tensorflow-gpu==1.12 #GPU版本 #可以使用清华源进行安装,满速下载 sudo pip3 install tensorflow-gpu==1.12.0 -i https://pypi.tuna.tsinghua.edu.cn/simple #可改成任意版本