基于双向表示学习的文档级自顶向下篇章修辞结构解析
Top-down Text-Level Discourse Rhetorical Structure Parsing with Bidirectional Representation Learning
-
摘要:研究背景 篇章修辞结构解析是自然语言处理领域的基础性研究之一,旨在对给定文本分析其内部篇章单元之间的结构、修辞与核性关系。篇章结构解析因其能从语义角度为上层自然语言处理应用提供丰富的修辞结构信息而具有重要的科研意义和实用价值。近年来,随着深度学习方法的飞速发展,句子级修辞结构解析水平显著提升,其中结构解析性能已经超过90 F1。相比而言,关于文档级修辞结构解析的研究因其任务复杂度更高、缺乏有标数据而困难重重。鉴于此,本文针对文档级篇章修辞结构解析展开研究,旨在借助自顶向下的全局信息和自底向上的局部信息对节点表示进行双向联合建模以提升篇章结构解析的质量。目的 已有的篇章修辞结构解析器对非基本篇章单元(内部树节点)的表示要么通过自底向上合并孩子节点得到,要么以自顶向下解析过程中的分割点作为内部节点表示。其中,自底向上的表示合成过程也是从叶子结点向上传递局部篇章信息的过程,而自顶向下方法则是从全局角度生成篇章单元之于整篇文章的表示。本研究认为自底向上的局部信息更利于对低矮树节点的决策而自顶向下的全局信息更利于对上层节点的决策。基于此,本文的研究目的是提出双向表示建模方法以更好地利用全局和局部信息以提升篇章修辞结构解析性能。方法 本文基于之前提出的编码器-解码器框架实现自顶向下的篇章修辞结构解析。为了实现双向表示建模,我们为原自顶向下的解析过程引入自底向上的树节点表示。借助该方法,每个内部树节点的表示来源于两个方面,即以该节点为根节点的子树的叶节点单元(局部信息)和自顶向下方法的编码阶段得到的分割点表示(全局信息)。进一步地,我们在自底向上和自顶向下的节点表示之间构建门控机制供模型根据树节点的深度判断对这两类信息的使用。此外,本研究还探索了篇章边界特征和基于“反译”技术的数据增强方法对篇章结构解析的影响。为了实现端到端的篇章修辞结构解析,我们还引入了一个基于指针网络的基本篇章单元(EDU)分割方法。该分割器借助图卷积网络将依存句法结构信息融入词表征从而为基本篇章单元边界预测提供有效指导。结果 我们在RST-DT数据集上开展了相关实验,该实验数据标注了385篇华尔街日报文章,属于目前比较有代表性的篇章修辞结构语料库。实验结果表明:(1)浅层语言特征如句子或段落边界对篇章修辞结构解析有较大帮助;(2)我们使用的基于“反译”技术的数据增强方法能一定程度上改善篇章解析任务所面临的数据资源不足问题;(3)我们提出的双向表示模型能提升修辞结构解析质量并且我们的最终模型不管是基于标准EDU还是自动EDU都明显优于基准系统;(4)样例分析表明,将自底向上获取的局部信息融入全局节点表示有利于帮助原系统学会独立思考构建子树结构而不受其它篇章单元的影响。该结果也暗示了借助门控机制让模型根据节点深度权衡对全局和局部信息的利用是必要的。结论 本研究从理论上论述了建立双向表示模型的可行性和必要性并基于该动机构建了基于双向表示学习的自顶向下解析器。此外,本研究还对篇章边界特征和“反译”数据增强进行了初步探索。试验结果表明,我们提出的方法有助于提升篇章修辞结构解析质量。无论是基于标准EDU还是自动EDU,我们的方法均优于基准系统性能。此外,本研究还初步证明了使用篇章特征和数据增强方法有利于缓解篇章解析面临的语料不足问题。基于该结果,我们将在今后的工作中深入探索更有效的篇章特征和数据增强方法来进一步提升篇章解析质量。Abstract: Early studies on discourse rhetorical structure parsing mainly adopt bottom-up approaches, limiting the parsing process to local information. Although current top-down parsers can better capture global information and have achieved particular success, the importance of local and global information at various levels of discourse parsing is different. This paper argues that combining local and global information for discourse parsing is more sensible. To prove this, we introduce a top-down discourse parser with bidirectional representation learning capabilities. Existing corpora on Rhetorical Structure Theory (RST) are known to be much limited in size, which makes discourse parsing very challenging. To alleviate this problem, we leverage some boundary features and a data augmentation strategy to tap the potential of our parser. We use two methods for evaluation, and the experiments on the RST-DT corpus show that our parser can primarily improve the performance due to the effective combination of local and global information. The boundary features and the data augmentation strategy also play a role. Based on gold standard elementary discourse units (EDUs), our parser significantly advances the baseline systems in nuclearity detection, with the results on the other three indicators (span, relation, and full) being competitive. Based on automatically segmented EDUs, our parser still outperforms previous state-of-the-art work.