一种新的多文档更新摘要方法

龙 翀; 黄民烈; 朱小燕; 李 明

doi:10.1007/s11390-010-1057-8

摘要: 　　文本摘要技术起源于20世纪50年代。近些年来，面对互联网上飞速增长的信息，人们经常需要在短时间内从大量描述同一事物的文章中获取它们的中心思想。在此背景下，文本摘要技术迅速成为了研究热点。国内外著名的大学和研究机构包括微软、IBM、MIT、Stanford、University of Waterloo、清华大学、北京大学、中科院计算所、哈尔滨工业大学等单位都积极地参与到这些研究中。目前的文本摘要技术分为两种：传统的文本摘要技术和更新摘要技术。本文将着眼于文本更新摘要这个实际应用，提出新型的信息距离理论框架下的文本摘要方法。
　　信息距离是基于Kolmogorov复杂性定义的，衡量事物本质联系的一种通用性度量。最近几年信息距离的研究，无论是在研究还是在实际应用上，都取得了长足的进展。在两个对象之间的信息距离理论的基础上，作者开展了进一步研究，并在近期发表的论文中提出了多个对象的信息度量E_m。在这篇文章当中，将利用这种新提出的度量方法对文本更新摘要进行建模，步骤如下：
　　1、首先利用多个对象之间的信息距离对问题进行描述，假设已知文档集A，要生成摘要的文档集为B，这些文档间的信息距离为E_m (B|A)；
　　2、然后，设S为要生成的摘要，那么可以利用在A前提下，S到B的信息距离，也就是D_max(B,S|A)来计算E_m (B|A)，这样问题就转换为生成S使得D_max(B,S|A)最小；
　　3、接下来，A、B和S之间的计算都可以转换为它们之间的语义单元之间的集合运算。由此详细研究了准确抽取语义单元的方法。语义单元主要以名词实体为主，而名词实体主要包括人名、地名、机构名、以及描述日期时间的词语等。
　　4、最后，从B中摘取句子生成能够使得D_max(B,S|A)最小的摘要S。
　　在文本摘要领域标准的数据集——TAC/DUC2007至2009上的实验结果表明，新提出的方法在很多指标下要优于目前流行的其它文本摘要方法。在介绍TAC/DUC上的实验结果之后，分析出三个可能存在近似误差之处并对其进行分析。
　　所有的实验结果和分析都证明了，新提出的基于信息距离理论的文本更新摘要生成方法取得了很好的实验效果，是一种非常有效的文本摘要生成方法。
　　在以后的工作中，可以在以下两个方面进行完善：1、研究更为精确的信息距离近似方法。利用更多的语义信息，以及E_m更好的表述都会对提高摘要的生成质量有很大的帮助；2、如果对大规模文本数据做摘要，那么就需要提高摘要生成算法的效率。
作为当前热门的研究方向，文本更新摘要系统旨在帮助人们在短时间内获取大量文本所包含的新信息，进而获取新的知识，因此这方面的工作具有很大的潜在价值。它可以为新闻、评论等网站提供新闻摘要和信息集成工具，提高用户获取最新信息的效率。此外，本文首次为文本摘要提供了一套理论框架，这就为文本摘要的研究提供了一条新的探索之路。

Abstract: Fast changing knowledge on the Internet can be acquired more efficiently with the help of automatic document summarization and updating techniques. This paper describes a novel approach for multi-document update summarization. The best summary is defined to be the one which has the minimum information distance to the entire document set. The best update summary has the minimum conditional information distance to a document cluster given that a prior document cluster has already been read. Experiments on the DUC/TAC 2007 to 2009 datasets (http://duc.nist.gov/, http://www.nist.gov/tac/) have proved that our method closely correlates with the human summaries and outperforms other programs such as LexRank in many categories under the ROUGE evaluation criterion.

一种新的多文档更新摘要方法

A New Approach for Multi-Document Update Summarization