基于标注传播算法的名词性待消解项识别研究

周国栋; 孔芳

doi:10.1007/s11390-011-1109-8

摘要: 1．本文的创新点
本文提出了一种基于标注传播算法的全局学习方法用于决定文本中名词性短语的待消解性信息，以进一步提高指代消解的性能。据我们所知，这是首次系统深入地将特征向量方法和树核函数方法同时成功应用于待消解项识别，并做了深入比较分析，最后将之作为一个模块成功应用于指代消解。
2．实现方法
给定待消解性标注和未标注名词性短语实例，标注传播（LP）算法首先将它们表示成连接图中的一个个顶点，然后通过加权边将标注信息从任意一个顶点传播到与它相邻的其它顶点，最后这种传播会达到一个全局平衡状态，从而可以得到所有待消解性未标注名词性短语实例的标注信息。本文中，LP算法中的标注实例包括训练语料中所有的待消解性标注实例，未标注实例包括测试语料中所有的待消解性未标注实例。同时，本文探索了两种核函数（经向核函数和模糊匹配卷积树核函数）用于计算两个名词性短语之间的待消解性相似度，用于度量连接两顶点的加权边的强度。最后，为了减轻标注传播算法中存在的巨大计算负担，本文探索了利用某些关键实例来代表训练语料中存在的所有标注实例。特别是，我们把SVM训练得到的加权支持向量作为关键实例。基于LP算法的待消解项识别的一个主要优点来自LP算法的全局优化能力，所有未标注测试实例的待消解性信息可以做到同时确定。另一个优点是LP算法能有效获取标注实例和未标注实例中存在的自然聚类结构。
3．结论及未来待解决的问题
结论：实验表明，本文所提方法对待消解项识别非常有效，并能大大提高指代消解的性能。与局部学习方法相比，LP算法能实现全局优化，因此性能要好得多。同时，实验表明，基于特征向量的待消解项识别对代词的指代消解贡献大，对定指名词性短语的指代消解没什么影响。与此相比，基于树核函数的待消解项识别由于能够有效捕获各种结构化信息，特别是本文中采用的模糊匹配卷积树核函数允许子结构之间的模糊匹配，因此效果更为明显，使得代词和定指名词性短语的指代消解性能都大大提高了。
未来待解决的问题：本文只是把待消解项识别作为指代消解的一个预处理任务。这样做的一个缺点是待消解项识别的错误会直接影响到随后的指代消解任务，而且这种错误是无法恢复的。一个可能的解决方案是实现待消解项识别与指代消解的联合学习，以更好地利用待消解性信息。另外，本文中探索了两种核函数（经向核函数和模糊匹配卷积树核函数）用于计算两个名词性短语之间的待消解性相似度，是不是还有其它更合适的相似度计算方法呢？这些都是有待解决的问题。
4．实用价值或应用前景
作为自然语言理解的一个关键问题，待消解项识别及指代消解可广泛应用于自然语言接口、机器翻译、自动文摘、信息抽取和问题回答。

Abstract: Knowledge of noun phrase anaphoricity might be profitably exploited in coreference resolution to bypass the resolution of non-anaphoric noun phrases. However, it is surprising to notice that recent attempts to incorporate automatically acquired anaphoricity information into coreference resolution systems have been far from expectation. This paper proposes a global learning method in determining the anaphoricity of noun phrases via a label propagation algorithm to improve learning-based coreference resolution. In order to eliminate the huge computational burden in the label propagation algorithm, we employ the weighted support vectors as the critical instances to represent all the anaphoricity-labeled NP instances in the training texts. In addition, two kinds of kernels, i.e., the feature-based RBF (Radial Basis Function) kernel and the convolution tree kernel with approximate matching, are explored to compute the anaphoricity similarity between two noun phrases. Experiments on the ACE2003 corpus demonstrate the great effectiveness of our method in anaphoricity determination of noun phrases and its application in learning-based coreference resolution.

基于标注传播算法的名词性待消解项识别研究

Learning Noun Phrase Anaphoricity in Coreference Resolution via Label Propagation