We use cookies to improve your experience with our site.

使用简单语言学特征改进机器翻译的自动评价

Improvement of Machine Translation Evaluation by Simple Linguistically Motivated Features

  • 摘要: 1.本文的创新点
    在基于机器学习的机器翻译自动评价方法中,语言学知识驱动的特征(语言学特征)被诸多研究工作证明可以提高基于机器学习方法的机器翻译评价系统的性能。一般认为,语言学特征通过捕捉优质的候选译文中所具备的语言学要素来发挥作用。
    与前人工作中使用大量语言学特征的策略不同的是,本文认为过多的语言学特征会加重评价系统的计算负担;并且使得评价系统的跨语言复用性变差,因为一些语言学特征所依赖的复杂的自然语言处理工具并非在各种语言上都有相应的实现,甚至只在英语上存在实现;不仅如此,大量的特征并不一定带来良好的泛化能力。因此,本文以“奥坎姆剃刀”原理为指导,根据机器翻译人工评价中裁判考虑的主要因素,设计了六个简单的语言学特征,并在实验中证明了相比采用53个特征的基准方法,六个特征可以带来相近的性能,而且在开放数据上具有更好的泛化能力。进一步,为了减少自然语言处理工具的噪声对最终评价系统的影响,本文使用3个经典的基于字符串的非语言学特征BLEU,ROUGE,以及METEOR辅助语言学特征的工作,并在实验中取得了进一步的性能提升。
    根据实验结果,本文指出,对于基于机器学习方法的机器翻译自动评价系统,特征的数量的增长不一定带来性能的提升。而除了挖掘大量有效的语言学特征之外,在翻译评价的关键因素上设计关键的少数语言学特征并辅以少量传统的非语言学特征,也是一种有效的策略。
    2.实现方法
    本文通过在翻译评价的关键因素上设计少量的特征,并辅以传统的非语言学特征,最终构成了共包含9个特征的特征集合。其中传统的非语言学特征包括BLEU,ROUGE,以及METEOR,这里不予详述;而语言学特征的设计,则主要考虑下列3个语言学层次上的5个因素:
    词法层次上的实词匹配和同根词匹配:
    机器翻译结果的忠诚度评价主要考虑句子的关键信息的翻译质量,而实词的翻译质量决定了翻译结果中信息的完整性。另一方面,由于在自然语言中一个词有多种表达方式,基于词形还原的同根词匹配方式是必要的。基于这两个因素,本文在词法层析设计了两个特征:基于同根词匹配的实词翻译精确率(LCWP)和召回率(LCWR)。
    句法层次上的名词短语匹配:
    短语比词承载了更多的信息,而短语,尤其是名词短语翻译的正确,是整个句子信息完整,且流畅可读的关键一步。基于这个因素,本文使用句法分析程序提取翻译结果中的名词短语,并计算了名词短语翻译的精确率(NPP)和召回率(NPR),作为句法层次上的两个特征。
    句子层次上长度比例和语言模型概率:
    在句子层次上,本文考虑两个因素:
    a) 一个质量良好的翻译结果一般和源语言句子保持着合理的长度比例。
    b) 一个质量良好的翻译结果在语言模型中应具有相对高的概率。
    针对第一个因素,本文在平行语料上统计了源语言句子和对应的目标语言句子的长度比例分布,并根据翻译结果的长度计算一个基于概率分布的特征LOS。
    针对第二个因素,本文直接采用句法分析程序内置语言模型的概率,并根据该概率之设计了最后一个语言学特征SCR。
    在这个特征集合上,本文采用支持向量机(SVM)回归的方法构建了机器翻译自动评价系统。并在不同的数据集上进行了详细的实验以验证系统性能和泛化能力、比较语言学特征和非语言学特征的表达能力,并和SVM排序方法进行了对比。最后,本文分析了每个特征的贡献,并采用基于爬山法的特征选择,证明了本文所采用的特征集合的低冗余性。
    3.结论及未来待解决的问题
    使用6个语言学特征的SVM回归模型具有和采用53个特征的基准方法相近的性能,而在开放数据上,前者具有更好的泛化能力。这说明在关键因素上设计关键特征的策略是有效的。而3个传统非语言学特征的加入,使得SVM回归模型的性能有了进一步的提升。证明语言学特征并不能完全取代传统特征,并且需要非语言学特征的辅助。
    在特征选择的分析过程中,实验证明9个特征的特征集合内部冗余度低,充分遵循了“奥坎姆剃刀”原理,有效体现了“关键因素上设计关键特征”的策略。
    至于SVM回归于SVM排序的比较,实验证明,至少在基于“连续值”的特征设计策略下,SVM排序的性能低于SVM回归,但是在分辨机器译文两两间差异的任务上SVM排序方法有着微弱的优势。
    在未来工作中,我们将继续尝试语言学特征和传统特征的组合,致力于探索更有表达能力的特征组合,不仅体现在语言学特征上,也体现在非语言学特征上。
    4.实用价值或应用前景
    高度准确的机器翻译自动评价系统是进一步提高机器翻译系统性能的关键。当前机器翻译系统开发过程中,需要快速准确地针对译文做出评价,而传统的基于字符串匹配的方法虽然复杂度低,运行迅速,但是在评价准确度上存在着不足。而采用语言学特征,基于机器学习方法的虽然在语言学特征的提取上存在性能上的瓶颈,但是其优越的准确度是极具价值的指导信息。在近年的机器翻译系统开发工作中,人们正在逐步地在传统的评价方法中加入简单的语言学指导信息,例如同义词、同根词匹配策略。这些实践,证明语言学信息是有用的、可用的,而且是好用的。因此,真正以语言学特征为主导的评价系统,必将发挥重要的作用。

     

    Abstract: Adopting the regression SVM framework, this paper proposes a linguistically motivated feature engineering strategy to develop an MT evaluation metric with a better correlation with human assessments. In contrast to current practices of "greedy" combination of all available features, six features are suggested according to the human intuition for translation quality. Then the contribution of linguistic features is examined and analyzed via a hill-climbing strategy. Experiments indicate that, compared to either the SVM-ranking model or the previous attempts on exhaustive linguistic features, the regression SVM model with six linguistic information based features generalizes across different datasets better, and augmenting these linguistic features with proper non-linguistic metrics can achieve additional improvements.

     

/

返回文章
返回