一种新的信息距离度量及其在问答系统中的应用
New Information Distance Measure and Its Application in Question Answering System
-
摘要: 本文对传统信息距离理论进行了补充和改进,并将其应用在一个基于Internet知识库的开放领域问答系统中。信息距离是一种基于Kolmogorov复杂性理论的距离量度,它具有普适性、领域无关性和参数无关性等优点,已被广泛应用于非参数数据挖掘,基因和蛋白质比对,语言进化树的建立,音乐、视频等数据分析,数据异常检测等多个领域。在应用中,信息距离还是遇到了一些问题,包括部分匹配问题、三角不等式不适用的问题和密度条件不能被满足的问题等。另外,使用统计和对齐相结合的方法估算Kolmogorov复杂性,进而计算信息距离的应用还是一个空白。本文在传统信息距离理论的基础上,从计算热力学基本原理出发,提出了一种新型的min型信息距离度量,完善了传统信息距离理论,而且完美的解决了传统的max型信息距离度量在解决实际问题时遇到的上述问题。除此之外,我们还对信息距离进行了条件扩展,定义了条件信息距离的概念,从而可以更精细的刻画对象之间的关系。在此理论基础上,本文实现了一个基于Internet知识库的问答系统QUANTA,系统使用新的信息距离理论计算备选答案与问题之间的距离。QUANTA由预处理、检索项构造、文档和段落检索、备选答案生成和备选答案打分共五个模块组成,可以对自然语言提出的问题提供简洁准确的答案。在预处理模块,系统综合采用了多种自然语言处理技术处理问题文本,并使用基于规则和统计结合的方法对问题进行分类;检索项构造模块根据问题文本生成待检索的条目;这些条目在文档和段落检索模块被送到Internet上的搜索引擎进行检索,从而取得可能包含正确答案的段落;在备选答案生成模块,系统从上一模块的结果中生成可能是正确答案的文本片段,并根据预处理阶段的结果进行过滤和筛选,最终10~20个备选答案被送入打分模块。在备选答案打分模块中,系统使用条件信息距离计算问题和答案之间的相关性。具体而言,这种相关性体现为备选答案与答案的核心对象之间,以根据问题的形式自动生成的特定模式为条件的条件信息距离。在打分模块中,估算Kolmogorov复杂性时首度采用了统计和对齐相结合的统一框架体系。在标准问答任务数据集上的实验证明,基于新的信息距离理论的算法相对传统的tfidf算法有更好的性能,而且具有很强的鲁棒性。Abstract: In a question answering (QA) system, the fundamental problem is howto measure the distance between a question and an answer, henceranking different answers. We demonstrate that such a distance canbe precisely and mathematically defined. Not only such a definitionis possible, it is actually provably better than any other feasibledefinitions. Not only such an ultimate definition is possible, butalso it can be conveniently and fruitfully applied to construct a QAsystem. We have built such a system ------ QUANTA. Extensive experimentsare conducted to justify the new theory.