作者|huggingface 编译|VK 来源|Github
该库中可用的大多数模型都是单语言模型(英语,中文和德语)。有一些多语言模型可用,并且与单语言模型具有不同的机制。本页详细介绍了这些模型的用法。
当前支持多种语言的两个模型是BERT和XLM。
XLM
XLM共有10个不同的checkpoints,其中只有一个是单语言的。剩下的9个模型checkpoints可以分为两类:使用语言嵌入的checkpoints和不使用语言嵌入的checkpoints
XLM和语言嵌入
本节涉及以下checkpoints:
xlm-mlm-ende-1024
(掩码语言建模,英语-德语)xlm-mlm-enfr-1024
(掩码语言建模,英语-法语)xlm-mlm-enro-1024
(掩码语言建模,英语-罗马尼亚语)xlm-mlm-xnli15-1024
(掩码语言建模,XNLI语言)xlm-mlm-tlm-xnli15-1024
(掩码语言建模+翻译,XNLI语言)xlm-clm-enfr-1024
(因果语言建模,英语-法语)xlm-clm-ende-1024
(因果语言建模,英语-德语)
这些checkpoints需要语言嵌入,这些语言嵌入将指定推理时使用的语言。这些语言嵌入表示为张量,其形状与传递给模型的输入idS相同。这些张量中的值取决于所使用的语言,并且可以使用tokenizers中的lang2id
和 id2lang
属性
这是一个使用xlm-clm-enfr-1024checkpoints
的示例(因果语言建模,英语-法语):
import torch
from transformers import XLMTokenizer, XLMWithLMHeadModel
tokenizer = XLMTokenizer.from_pretrained("xlm-clm-1024-enfr")
该模型/tokenizer处理不同语言以及这些语言的ID可以使用lang2id
属性标明:
print(tokenizer.lang2id) # {'en': 0, 'fr': 1}
在模型传递语言参数时,应使用这些ID。让我们定义输入:
input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")]) # batch大小为1
现在,我们应该使用先前定义的语言ID来定义语言嵌入。我们想创建一个张量填充适当的语言ID,其大小与input_ids相同。对于英语,id为0:
language_id = tokenizer.lang2id['en'] # 0
langs = torch.tensor([language_id] * input_ids.shape[1]) # torch.tensor([0, 0, 0, ..., 0])
langs = langs.view(1, -1) # 现在是 [1, sequence_length]
然后,你可以将其作为模型的输入:
outputs = model(input_ids, langs=langs)
示例run_generation.py
可以使用语言嵌入从XLM使用CLM checkpoints生成文本。
没有语言嵌入的XLM
本节涉及以下checkpoints:
-xlm-mlm-17-1280
(掩码语言建模,17种语言)
-xlm-mlm-100-1280
(掩码语言建模,100种语言)
这些checkpoints在推理时不需要语言嵌入。这些模型用于具有通用句子表示形式,与前面提到的XLM checkpoints不同。
BERT
BERT具有两个可用于多语言任务的checkpoints:
-bert-base-multilingual-uncased
(掩码语言建模+下一个句子预测,102种语言)
-基于bert-base-multilingual-cased
(掩码语言建模+下一句预测,104种语言)
这些checkpoints在推理时不需要语言嵌入。他们会识别在上下文中使用的语言并据此进行推断。
原文链接:https://huggingface.co/transformers/multilingual.html
欢迎关注磐创AI博客站: http://panchuang.net/
OpenCV中文官方文档: http://woshicver.com/
欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/
来源:oschina
链接:https://my.oschina.net/u/4253699/blog/4260858