提升数据效率的主题增强翻译
Visual Topic Semantic Enhanced Machine Translation for Multi-Modal Data Efficiency
-
摘要:研究背景 多模态信息融合是智能系统发展的必然趋势,符合复杂现实环境的实际需求。在机器翻译领域,利用语义平行的多模态信息有望改善翻译中的语义缺失、歧义等问题。同时,多模态翻译作为生成任务,相较于分类等自然语言理解问题在跨模态信息的融合方式上拥有更高的复杂性,是多模态研究的重要分支。然而,通过人工标注多模态平行数据代价高昂,导致现有的领域内研究依赖图像描述数据集Multi30k。该数据集规模小,句式简单,同时存在标注主观性,以上问题阻碍了视觉信息介入翻译的研究,同时限制了多模态机器翻译模型的适用范围。目的 我们关注多模态机器翻译领域内的数据效率问题,利用来自外部的图像主题信息强化翻译模型对语义特征的提取能力。该做法在提升翻译性能的同时,缓解现有方法对人工标注数据集的依赖,提升数据效率,拓宽多模态翻译的适用范围。方法 我们利用图像主题信息优化翻译。将文本转化为查询键值,利用搜索引擎获取与文本主题相关的图像。对于图像信息的利用,我们设计一个主题语义空间构建任务。通过一个双向翻译将源语言、目标语言、以及图像投影到一个跨语言-跨模态的语义空间中,进而让翻译模型同时整合句法信息和语义特征。整个过程中,一个视觉共享机制作用在主题相近的本文间,用以进一步优化对主题信息的利用。结果 我们同时在RNN(GRU)和Transformer上验证主题增强的翻译模型。结果表明:1)利用原始数据集中的图像进行实验,同等条件下,我们的方法在Multi30k验证集上相较于现有研究取得了明显的领先,其中基于Transformer结构的翻译中,在英语-法语任务下,BLEU领先0.7,METEOR领先1.0。2)舍弃原始数据集中的图像内容,仅使用外部图像信息,我们的方法仍然保持有竞争力的结果,特别地,对比纯文本翻译,利用外部图像主题增强的翻译模型在BLEU指标上可领先1.8。3)在含有歧义词的MSCOCO数据集上,主题增强翻译在小部分翻译中得分略低于最新的融合图像细粒度信息的翻译模型,表明歧义词场景下局部语义相较主题信息更有优势。遗漏得分(Omission Score)的结果表明,图像主题信息的介入使模型对句子中的语义词施加了更多的关注,是减少错译现象的关键因素。结论 1) 主题信息足够编码图像和文本间的语义关系,因而利用外部图像增益翻译是可行的。该方法可以应用于单模数据集上,从而提升数据效率,拓宽多模态机器翻译的适用范围。2) 翻译任务下模型更关注句法结构而不是语义信息,主题增强翻译利用一个额外的语义空间构建任务,让模型对语义词施加更多的关注,减少了错译现象,提升翻译性能。3) 利用搜索引擎所获取的图像同样包含与文本相关的细粒度信息,未来通过优化图像获取方式以及模型结构,有望利用外部图像细节特征支撑多模态翻译研究,从而推动多模态融合的发展。Abstract: The scarcity of bilingual parallel corpus imposes limitations on exploiting the state-of-the-art supervised translation technology. One of the research directions is employing relations among multi-modal data to enhance performance. However, the reliance on manually annotated multi-modal datasets results in a high cost of data labeling. In this paper, the topic semantics of images is proposed to alleviate the above problem. First, topic-related images can be automatically collected from the Internet by search engines. Second, topic semantics is sufficient to encode the relations between multi-modal data such as texts and images. Specifically, we propose a visual topic semantic enhanced translation (VTSE) model that utilizes topic-related images to construct a cross-lingual and cross-modal semantic space, allowing the VTSE model to simultaneously integrate the syntactic structure and semantic features. In the above process, topic similar texts and images are wrapped into groups so that the model can extract more robust topic semantics from a set of similar images and then further optimize the feature integration. The results show that our model outperforms competitive baselines by a large margin on the Multi30k and the Ambiguous COCO datasets. Our model can use external images to bring gains to translation, improving data efficiency.