摘要:
研究背景 命名实体识别一直是自然语言处理研究领域的挑战之一。近期,深度神经网络已被尝试用于构建命名实体识别系统,并且取得了显著的成功。然而,这些系统在进行命名实体识别时仍然面临两个主要困难:存在大量的未见词和实体名称边界模糊。中文人名的姓大多来自常用的姓,而机构名又多以“公司”、“大学”和“厂”等结尾,在基于神经网络模型中以分布式表示的方式加入这种前后缀信息对于提高未见实体的识别召回率有较大帮助。另外,命名实体通常以片段(包含数量不等的若干个词)的形式出现,基于片段的、并辅以上述前后缀位置相关信息的认别模型值得进一步探索。
目的 受认知科学中内容寻址检索(Content-addressable retrieval)概念的启发,我们希望能够提出一种借助词典记忆网络增强的中文命名实体识别模型。将已知的命名实体名称以记忆网络的方式存储,在命名识别时通过作用于记忆网络的注意力机制(Attention mechanism),从中提取当前文本片断的位置相关特征(特别是前后缀信息),从而用于提高未见实体的召回率。
方法 我们提出了一种基于文本片断(Fragment)分类的、融合了包括字和词等多粒度特征的中文命名实体识别的模型。模型首先通过深度神经网络产生输入文本所有可能片断的上下文相关表示;然后对于每一个片断,通过注意力机制从词典记忆网络中提取与这个片断有关的位置相关信息,特别是有助于实体识别的前后缀特征;最后结合这些特征形成片断的最终表示,并输入到分类器中进行识别。模型主要由三个主要模块组成:基于字符的编码器,用于对输入的全文进行扫描,并且产生上下文相关的表示;基于片断的编码器,通过作用于记忆网络的注意力机制,从中提取并融合当前文本片断的位置相关特征,进而产生片断的最终表示;片断分类器,判断片断是否是一个命名实体,并且决定其实体类型。其中记忆网络可从大量未标注的文本中自动构建。我们还借助文本片断之间的内在嵌套关系,提出了一种采用循环神经网络经过一次扫描输入文本同时产生所有可能片断表示的优化方法,从而提高模型训练和使用效率。
结果 实验结果表明我们借助词典记忆网络增强的中文命名实体识别模型(LEMON)在四个不同的数据集上均达到目前最佳的性能,特别是在未见实体的召回率方面提升显著,较已有模型在F1指标下最多能够提升3.2%。模型的源代码可以从github.com/dugu9sword/LEMON下载。
结论 中文命名实体(人名、地名和机构名)通常以一些特殊的模式出现,并且它们的前后缀信息对于识别它们特别有用。基于上述观察,我们提出了一种借助词典记忆网络增强的、基于文本片断分类的中文命名实体识别模型。为了缓解实体识别时存在大量未见实体的问题,设计了一种通过注意力机制来作用于记忆网络,从中提取与当前文本片断相关的词级别和前后缀信息,并以“软”的方式融入到当前文本片断的分布式特征表示中。实验结果表明借助词典记忆网络增强的中文命名实体识别模型(LEMON)在多个不同数据集上均达到目前最佳的性能。虽然这项工作主要关注于如何在实体识别过程中通过记忆网络以“软”的方式融合词级别和前后缀特征,将来可以进一步探索所提出的LEMON模型如何与目前现有的大规模预训练语言模型(如ERNIE、XLNet和ELMo),及其结合了知识图谱的扩展(如K-BERT)的结合途径与方法,从而进一步提高中文命名实体识别的性能。