We use cookies to improve your experience with our site.

语言学理论指导的汉语同指消解统计特征挖掘

Linguistic Theory Based Contextual Evidence Mining for Statistical Chinese Co-Reference Resolution

  • 摘要: 同指消解是研究自然语言文本中的所指语是否指向现实世界中的同一个对象或者实体的技术,对于机器翻译、自动文摘及问答系统等许多自然语言处理应用领域都具有非常重要的意义。文本中实体提及的同指消解研究日益受到国内外研究人员的关注,成为信息抽取领域研究的热点课题。本论文研究汉语的同指消解问题,在“自动内容抽取(Automatic Context Extraction,ACE)”的框架下进行。ACE是由美国国家标准技术研究所主持的一项内容提取评测计划。在ACE框架下,实体、关系和事件是表达文本内容的三个重要元素。自动内容抽取的目标就是识别和描述文本中的实体、关系和事件。ACE的主要评测任务包括实体识别和跟踪(EDT)、关系识别和描述(RDC)、事件识别和描述(EDC)以及实体关联(LNK)等。本论文针对LNK任务进行研究。在LNK之前,EDT已经识别出了文本中实体(例如人名、组织结构名、地名等)的所有提及(包括命名性提及、名词性提及和代词性提及),LNK的任务就是确定所有提及之间的同指关系,并把具有同指关系的提及连接成同指链。本论文利用统计机器学习方法对汉语文本中实体提及的同指链生成进行研究。首先判断两个候选实体提及是否具有同指关系,然后在分类基础上利用一定的链接策略生成同指链。但是,统计方法仅凭经验很难有效地挖掘出形式多样的上下文信息,为了避免“统计黑盒子”的盲目性,本论文重点研究在指代消解语言学理论指导下的同指消解统计特征挖掘技术,以寻求更理性的分析和指导。语言学上有一系列描述指代现象特性的理论。指代和同指在外延上具有很大的交集,因此传统的指代消解理论对同指消解也具有一定的指导价值。本文在统计同指消解框架的基础上,以指代消解语言学理论为指导,挖掘更丰富的上下文特征,目的是充分利用不同形式的浅层语言学特征去近似刻画相关语言学理论所描述的语言特性,在一定程度上实现由浅层特征到深层语言学规则上的映射。本文的主要贡献在于:(1)为了模拟指代消解理论中的“句法语义平行消解因子”,从实体提及的上下文环境中抽取“词袋”、“词性袋”和“义原袋”特征,并融入到基线特征集中;(2)因为直接利用“词袋”、“词性袋”和“义原袋”特征来确定两个实体提及的上下文句法语义平行程度很不精确,提出了基于语义相似度计算的上下文特征重组方法,使得重组后的上下文特征能更好地近似“句法语义平行消解因子”;(3)采用基于实体提及的大颗粒度上下文特征表示方法,并通过扩大上下文窗口等手段,近似模拟指代消解因子的选择限制特性。由于实体提及的作用范围比较广,这种特征表示在一定程度上可以有效地获取长距离依存信息。在ACE测试集上的实验结果表明,本文提出的基于语言学理论的特征挖掘策略可以有效地改善基于统计的同指消解系统的性能。

     

    Abstract: Under statistical learning framework, the paper focuseson how to use traditional linguistic findings on anaphora resolution asa guide for mining and organizing contextual features for Chineseco-reference resolution. The main achievements are as follows. (1) Inorder to simulate ``syntactic and semantic parallelism factor'', weextract ``bags of word form and POS'' feature and ``bag of semes'' featurefrom the contexts of the entity mentions and incorporate them into thebaseline feature set. (2) Because it is too coarse to use the featureof bags of word form, POS tag and seme to determine the syntactic andsemantic parallelism between two entity mentions, we propose a methodfor contextual feature reconstruction based on semantic similaritycomputation, in order that the reconstructed contextual features couldbetter approximate the anaphora resolution factor of ``Syntactic andSemantic Parallelism Preferences''. (3) We use an entity-mention-basedcontextual feature representation instead of isolated word-basedcontextual feature representation, and expand the size of thecontextual windows in addition, in order to approximately simulate ``theselectional restriction factor'' for anaphora resolution. Theexperiments show that the multi-level contextual features are usefulfor co-reference resolution, and the statistical system incorporatedwith these features performs well on the standard ACE datasets.

     

/

返回文章
返回