神经机器翻译,语境参数生成器

澳门新葡萄京997755 2

原标题:EMNLP 2018 |
结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

原文:https://www.tensorflow.org/versions/r1.5/tutorials/seq2seq

选自arXiv

(全文99.9%由google翻译,自学使用)

作者:Emmanouil Antonios
Platanios等

作者:Thang Luong,Eugene Brevdo,Rui Zhao(Google Research
Blogpost,Github)

参与:白悦、刘晓坤

本教程的这个版本需要TensorFlow Nightly。
为了使用稳定的TensorFlow版本,请考虑其他分支,如tf-1.4。

通用和专用 NMT
模型分别在相似语言对和罕见语言对的翻译中具有优势,但这也反映了各自的劣势,取决于参数共享的程度。为此,CMU
的研究者在本文中提出了一种在两者之间取得平衡方法,不需要改变 NMT
原有架构,而是引入新的组件
CPG,来可控地实现不同语言对模型之间的参数共享。该组件可无缝整合不同的
NMT,并在基准数据集上取得当前最佳。研究者强调,该方法使我们更接近普适的中间语言。

如果使用这个代码库进行研究,请引用此。

神经机器翻译(NMT)无需单独训练或调整系统的任何部分就可以直接建模源语言到目标语言的映射。这使得
NMT 快速发展,并在许多大规模环境中成功应用 (Wu et al., 2016; Crego et
al.,
2016)。编码器-解码器抽象使构建将任何语言的源句映射到向量表示,再将向量表示解码到任何目标语言的系统在概念上变得可行。因此,人们提出了各种方法来扩展这种多语言机器翻译的抽象
(Luong et al., 2016; Dong et al., 2015; Johnson et al., 2017; Ha et al.,
2016; Firat et al., 2016a)。

介绍(Introduction)

序列 – 序列(seq2seq)模型(Sutskever et al.,
2014,
Cho et al.,
2014
)在机器翻译,语音识别和文本摘要等各种任务中取得了巨大的成功。
本教程为读者提供了seq2seq模型的全面理解,并展示了如何从头构建一个有竞争力的seq2seq模型。
我们专注于神经机器翻译(NMT)的任务,它是seq2seq模型的第一个测试平台。
包含的代码是轻量级的,高质量的,生产就绪,并结合最新的研究思路。
我们通过以下方式达到这个:

  1. 使用最近的解码器/注意力包装器(decoder / attention
    wrapper)API,TensorFlow 1.2数据迭代器
  2. 结合我们强大的专业知识,建立循环和seq2seq模型
  3. 为建立最好的NMT模型和重现Google’s NMT
    (GNMT)系统提供技巧和窍门。

我们相信提供人们可以轻松重现的benchmarks是非常重要的。
因此,我们提供了完整的实验结果,并在以下公开可用的数据集上对模型进行预训练:

  1. 小规模:IWSLT Evaluation
    Campaign提供的英语 –
    越南语TED对话语料库(133K个句子对)。
  2. 大规模:WMT Evaluation
    Campaign提供的德英平行语料库(4.5M句子对)。

我们首先建立一些关于NMT的seq2seq模型的基本知识,解释如何建立和训练一个vanilla
NMT模型。 第二部分将着重于构建具有注意力机制的竞争性NMT模型。
然后,我们将讨论一些技巧和诀窍,以建立最佳NMT模型(包括速度和翻译质量),如TensorFlow最佳实践(批处理,分段),双向RNN,波束搜索(beam
search [这个是啥?])以及使用GNMT注意力扩展到多个GPU。

多语言 NMT
之前的工作可大致分为两种范式。第一个通用 NMT (Johnson et al., 2017; Ha
et al., 2016) 对所有语言使用单一模型。通用 NMT
没有任何特定语言的参数化,在翻译截然不同的语言和数据有限的情况下,这种模式过于简单化且非常不利。通过实验验证,Johnson
等人的方法(2017)在高样本复杂度情况下性能变差,因此在有限的数据设置中表现不佳。Ha
等人提出的通用模型(2016)需要输入句子的新编码方案,这会导致过大的词汇量从而难以扩展。第二种范式,特定于每种语言的编码器-解码器
(Luong et al., 2016; Firat et al.,
2016a),每种语言使用独立的编码器和解码器。这不允许跨语言共享信息,可能导致过度参数化,且在语言相似的情况下可能有害。

基础知识(Basic)

在本文中,CMU
的研究者在这两种方法之间取得了平衡,提出了一种能够分别为每种语言学习参数的模型,同时也能在相似语言之间共享信息。研究者使用了新的语境相关的参数生成器(CPG),它可以(a)泛化所有这些方法;(b)缓解上述通用和独立语言编码器-解码器系统的问题。它将语言嵌入作为翻译的语境进行学习,并用它们为所有语言对生成共享翻译模型的参数。因此,它为这些模型提供了每种语言单独学习参数的能力,同时也在相似语言之间共享信息。参数生成器是通用的,允许以这种方式增强任何现有的
NMT 模型。此外,它具有以下所期望的特征:

神经机器翻译的背景(Background on Neural Machine Translation)

在过去,传统的基于短语的翻译系统通过将源语句拆分成多个片段然后将其逐句翻译来执行他们的任务。
这导致了翻译产出的不流畅,并不像我们人类翻译的那样。
我们阅读整个源句子,理解它的意思,然后产生一个翻译。
神经机器翻译(NMT)模仿的就是这种方式!

澳门新葡萄京997755 1

图1.编码器 – 解码器架构 – 用于NMT的一般方法的例子。
编码器将源语句转换为通过解码器传递的“意义”向量以产生翻译。

具体而言,NMT系统首先使用编码器读取源句子来构建“思想”向量,表示句子含义的数字序列;
解码器然后处理句子向量以发出翻译,如图1所示。这通常被称为编码器 –
解码器体系结构。
NMT以这种方式解决了传统的基于短语的方法中的局部翻译问题:它可以捕捉语言的长期依赖性,例如性别协议;
语法结构等; 并通过谷歌神经机器翻译系统(Google Neural Machine
Translation
systems)展示了更流利的翻译。

NMT模型根据其确切的体系结构而有所不同。
对于序列数据,很自然的选择是大多数NMT模型所使用的递归神经网络(RNN)。
编码器和解码器通常使用RNN。 但是,RNN模型在以下方面有所不同:(a)方向性

  • 单向或双向; (b)深度 – 单层或多层; 和(c)类型 –
    通常是普通RNN,长期短期记忆(LSTM)或门控循环单元(GRU)。
    有兴趣的读者可以在这篇博文中找到关于RNN和LSTM的更多信息。

在本教程中,我们以单向的深度多层RNN为例,将LSTM作为一个递归单元。
我们在图2中展示了这样模型的一个例子。在这个例子中,我们建立了一个模型,将源句子”I
am a student”翻译成目标句子”Je suisétudiant”。
在高层次上,NMT模型由两个递归神经网络组成:编码器RNN仅仅消耗输入的源单词而不作任何预测;
另一方面,解码器在预测下一个单词的同时处理目标语句。

欲了解更多信息,我们向读者介绍本教程所基于的Luong
(2016)。

澳门新葡萄京997755 2

图2.神经机器翻译 – 一个深度循环架构的例子,将源句子“I am a
student”翻译成目标句子“Je suistétudiant”。
这里,“<s>”表示解码过程的开始,而“</ s>”表示解码器停止。

  1. 简单:类似 Johnson 等人(2017)和 Ha 等人(2016)的方法,且与 Luong
    等人(2016 年)和 Firat
    等人(2016a)的方法相反,它只需稍作修改就可以应用于大多数现有的 NMT
    系统,并且能够无缝地容纳注意力层。
  2. 多语言:和之前相同,允许使用相同的单个模型进行多语言翻译。
  3. 半监督:可以使用单语数据。
  4. 可扩展:通过在语言间使用大量但可控的共享来减少参数的数量,从而减少大量数据的需求,如
    Johnson
    等人所述(2017)。它还允许语言的解耦,避免对大量共享词汇需求,如 Ha
    等人所述(2016)。
  5. 适应性强:无需完全重新训练就可以适应新语言。
  6. 当前最先进的方法:比成对 NMT 模型和 Johnson
    等人的模型具备更好的性能。(2017
    年)。事实上,该方法优于最先进的性能。

安装教程(Installing the Tutorial)

要安装本教程,您需要在系统上安装TensorFlow。 本教程需要TensorFlow
Nightly。 要安装TensorFlow,请按照此处的安装说明进行操作。
一旦安装了TensorFlow,您可以运行以下命令来下载本教程的源代码:

git clone https://github.com/tensorflow/nmt/

作者首先介绍一个可用于定义和描述大多数现有 NMT
系统模块化框架,然后,在第 3
节中,将根据该框架介绍本研究的主要贡献,即语境参数生成器(CPG)。作者还论证了该方法使我们更接近普适的中间语言。

训练 – 如何建立我们的第一个NMT系统(Training – How to build our first NMT system)

首先,我们将深入探讨用具体的代码片断构建NMT模型的核心,我们将通过它更详细地解释图2。
我们将数据准备和完整的代码推迟到以后。
这部分是指文件model.py

在底层,编码器和解码器RNNs接收以下输入:首先是源句子,然后是指示从编码转换到解码模式的边界标记”<s>”
,和目标语句。
对于训练,我们会给系统提供以下张量,这些张量在时间上是主要格式,包含文字索引:

  • encoder_inputs [max_encoder_time,batch_size]:源输入单词。
  • decoder_inputs [max_decoder_time,batch_size]:目标输入单词。
  • decoder_outputs
    [max_decoder_澳门新葡萄京997755 ,time,batch_size]:目标输出单词,这些是decoder_input向左移动一个时间步,右边添加一个句尾结束标记。
    这里为了提高效率,我们一起训练多个句子(batch_size)。
    测试稍有不同,所以我们稍后再讨论。

论文:Contextual Parameter Generation
for Universal Neural Machine Translation

嵌入(Embedding)

鉴于单词的分类性质,模型必须首先查找源和目标的嵌入来检索相应的词表示(word
representations)。
为了使这个嵌入层起作用,首先为每种语言选择一个词汇表。
通常,选择词汇量V,只有最频繁的V词才被视为唯一。
所有其他单词都转换为”unknown”标记,并获得相同的嵌入。
嵌入权重,每种语言一套,通常在训练中学习。

# Embedding
embedding_encoder = variable_scope.get_variable(
    "embedding_encoder", [src_vocab_size, embedding_size], ...)
# Look up embedding:
#   encoder_inputs: [max_time, batch_size]
#   encoder_emb_inp: [max_time, batch_size, embedding_size]
encoder_emb_inp = embedding_ops.embedding_lookup(
    embedding_encoder, encoder_inputs)

同样,我们可以构建embedding_decoder和decoder_emb_inp。
请注意,可以选择使用预训练词表示(例如word2vec或Glove
vectors)来初始化嵌入权重。
一般来说,给定大量的训练数据,我们可以从头学习这些嵌入。

发表评论

电子邮件地址不会被公开。 必填项已用*标注