篇章级神经机器翻译中全局上下文信息的层次化建模
Document-Level Neural Machine Translation with Hierarchical Modeling of Global Context
-
摘要: 研究背景:机器翻译是利用计算机算法自主将一种源语言翻译成另一种目标语言的过程,隶属自然语言处理领域,具有重要的科研意义和实用价值。近年来,句子级神经机器翻译系统因其显著提升的翻译流畅度和准确度极大地缩短了句子级翻译任务中人工译文和机器译文之间的差距。然而,当面向篇章级神经机器翻译任务时,由于缺少对篇章的理解以及忽略了句子间的联系,神经机器翻译模型仍难以生成理想的翻译译文。因此,本文针对篇章级神经机器翻译展开研究,旨在通过对篇章的上下文信息进行建模提升篇章级神经机器翻译的译文质量。
目的:由于篇章上下文信息中的衔接性和连贯性对于篇章的理解至关重要,因此,我们认为对篇章的上下文信息进行有效建模可以提升篇章级神经机器翻译的译文质量。除此之外,为了有效避免由不准确的局部上下文信息引起的翻译问题、不断向后传播的不准确上下文信息引起的语义偏差问题等,我们提出通过对篇章全局上下文信息的层次化建模来提升篇章级神经机器翻译的译文质量。
方法:我们利用层次化的编码器对篇章全局上下文信息进行建模:首先,利用句子级编码器层捕获句子内的相关性;其次,利用篇章级编码器层捕获句子间的连贯性以及衔接性。最后,我们提出了一种对抽取的上下文信息进行有效分配的方法,即以自上而下的方式为每个单词配备全局上下文信息。这种分配方法能一次性完成上下文信息分配,从而有效地缓解了上下文信息的传播误差引起的翻译问题。同时,为每个单词配备特定的篇章上下文信息也有助于使每个单词在特定环境中的翻译更加稳健。值得注意的是,我们使用两步训练策略利用大规模的平行句对的优势来弥补单一领域的篇章语料库规模不足的问题,这有助于提升篇章级神经机器翻译的译文质量。
结果:我们在“中—英”以及“英—德”翻译任务上开展实验,实验数据来自三个不同领域,即TED,News和Europarl。大量实验结果表明,我们提出的模型与4个高水准的篇章级神经机器翻译模型相比有较大性能提升,其性能更是显著优于RNNSearch和Transformer翻译模型。特别值得说明的是,我们提出的模型可以显著改善文章中代词和名词的翻译。这进一步证明了我们的模型在抽取篇章衔接性和连贯性信息方面的有效性。
结论:我们针对篇章编码器的层数、编码器间的参数共享与否、是否使用两步训练策略以及使用何种后向分配方式进行了大量的实验分析。实验结果表明,篇章全局上下文信息对提升篇章的翻译质量起到了非常重要的作用。此外,通过对代词翻译的实验分析我们发现,篇章中的代词翻译对篇章级神经机器翻译的性能有着重要影响。今后,我们将以指代消解作为切入点对篇章级神经机器翻译展开更深入的研究。Abstract: Document-level machine translation (MT) remains challenging due to its difficulty in efficiently using document-level global context for translation. In this paper, we propose a hierarchical model to learn the global context for document-level neural machine translation (NMT). This is done through a sentence encoder to capture intra-sentence dependencies and a document encoder to model document-level inter-sentence consistency and coherence. With this hierarchical architecture, we feedback the extracted document-level global context to each word in a top-down fashion to distinguish different translations of a word according to its specific surrounding context. Notably, we explore the effect of three popular attention functions during the information backward-distribution phase to take a deep look into the global context information distribution of our model. In addition, since large-scale in-domain document-level parallel corpora are usually unavailable, we use a two-step training strategy to take advantage of a large-scale corpus with out-of-domain parallel sentence pairs and a small-scale corpus with in-domain parallel document pairs to achieve the domain adaptability. Experimental results of our model on Chinese-English and English-German corpora significantly improve the Transformer baseline by 4.5 BLEU points on average which demonstrates the effectiveness of our proposed hierarchical model in document-level NMT.