摘要:
研究背景 事件同指消解是信息抽取领域中的重要课题之一,也是自然语言处理中的一个难点任务。作为描述语义信息的重要载体,事件通常表述了在真实世界中发生的事情。同指的事件虽然在同一文档或不同文档中具有不同的表述形式,但是具有指向现实世界中同一事件的特性。事件同指消解任务旨在识别多个事件实例是否指向真实世界中的同一事件,并聚合成同指事件链。事件同指消解在话题探索、问答、信息抽取等自然语言处理的领域都有重要作用,同指事件的准确识别有利于理解文本信息、扩充隐含信息、发现事件之间关系等。
目的 目前大部分对事件同指消解的研究都严重依赖于人工标注的事件信息,使得这些方法难以应用到真实场景中。同时,事件同指消解任务语料库中标注事件信息的数量非常少,这导致了有效的触发词总量也很少,而且大多数只出现几次。因此,触发词的稀疏性导致模型如果只在小标注语料库上进行训练,则不能捕捉到足够的触发语义,从而影响事件同指消解任务的性能。本文专注于面向未标注生文本的事件同指消解任务,这更具有挑战性且更依赖于文本的理解。
方法 本文提出了一个使用外部语料来扩充事件触发词语义信息机制来解决事件同指消解任务。首先,本文将触发词掩盖策略应用于未标注的数据集(Gigaword)上来预训练一个基于BERT的编码器(Trigger-BERT)。然后,再将源于Trigger-BERT的事件语义信息与源于信息交互模块的事件对间的交互信息两者相融合。
结果 本文分别选取了在KBP2016和KBP2017数据集上目前两个先进的模型Lu和Huang以及使用BERT模型训练的词向量作为特征进行事件同指消解的模型(Co-BERT)作为基准模型。实验表明,本文提出方法在两个数据集上的平均性能(即MUC、B3、CEAFe和BLANC的均值)大幅领先于基准系统。相比Lu的方法需要为分类器提供大量的手工特征以及复杂的规则,本文只需要输入简单的事件句信息,使用Trigger-BERT自动挖掘事件句中的触发词语义,并且通过软注意力机制自动捕获事件句中的重要语义特征。Huang在同指消解过程中使用了事件抽取过程中捕获的论元相容信息,因此在判别同指时会存在误差的叠加,从而影响到最终的同指消解性能。而本文更专注于分析事件自身的描述,包括描述中包含的触发词语义信息和事件对之间的信息,避免了提前引入决策信息而带来的误差累积。Co-BERT使用原始BERT模型预训练的词向量作为特征,对词汇的语义表示的更为广泛。本文利用了任务相关数据集和面向触发器的掩蔽策略,能够将事件触发器的相关语义知识引入到任务中,进一步提高了事件同指消解能力。
结论 针对数据集规模小导致触发词稀疏的问题,本文提出了一种事件同指消解模型。首先,引入了一种触发语义增强机制来提高事件同指消解性能,该机制形成了一种面向触发的掩蔽策略来预训练基于BERT的编码器(Trigger-BERT),并在一个大的未标记数据集Gigaword上进行了微调。然后,结合触发器BERT中的事件语义关系和软注意机制中的事件交互来辨别事件是否具有同指关系。最后,实验结果显示本文方法获得了最优效果,提出的捕获深层语义和增强事件对信息交互方法都有助于判断事件同指。