摘要:
面向Deep Web环境中大规模的数据资源,能够合理而准确地对其评估是十分必要的。同基于页面级别的资源评估技术相比,基于实体级别的资源评估更能满足用户的需求。因此,需要在页面级评估的基础上进一步针对页面中的实体信息进行实体级评估,以提高结果数据的质量。目前,针对Web中实体数据进行评估的方式可以分为:针对单个结果页面的局部评估技术、针对多个结果页面的全局评估技术和混合评估技术。仅采用局部评估或全局评估的一种方式难以对实体进行全方位的评测。一些实体搜索引擎虽然采用局部评估与全局评估相结合的混合评估策略,但其中的大多数系统存在局限性。例如,这些系统大多需要用户事先定义查询格式,增加了用户的操作负担;另外,它们缺乏对评估影响因素的明确定义,需要将实体信息预先抽取并存储,很难保证数据的有效性。
为此,本文提出了一种局部评估与全局聚集相结合的实体评估机制(LG-ERM),主要贡献点在于:(1)构建了一种支持Deep Web实体级别搜索的实体评估机制LG-ERM。不同于传统的评估方法,LG-ERM没有严格限制用户的查询请求格式。在评估过程中,较全面地考虑了实体抽取的不确定性、视效信息、数据源重要度、实体关联关系等一系列影响因素。(2)提出了一种局部评估与全局聚集相结合的实体评估策略。既在数据源内部进行局部多重评估处理,又基于实体关联知识将多个数据源提供的候选实体进行聚集整合,有效地提高了评估的准确性,更能满足用户的实际需求。(3)通过实验验证了LG-ERM中所采用的关键技术的可行性和有效性,同其它评估策略相比,该机制可以达到较高的评估准确度。
本文针对实体评估过程中的影响因素进行了分析,并提出了LG-ERM的模型。经过分析,我们将如下几方面因素作为实体评估过程中的影响因素:实体抽取的不确定性、实体在结果页面中的视效信息、Web数据源的重要度、实体间关联关系。LG-ERM的模型按照功能的不同分为两部分:局部评估和全局聚集。首先,LG-ERM分析用户提出的查询请求,通过查询重写将其映射为某种预先定义的实体类型作为目标实体类型,并以领域全局模式表示。然后,基于查询关键字搜索底层资源,将抽取到的实体记录作为候选实体,同时保留与候选实体相关的实体模式信息、视效信息、Web数据源信息,作为后续评估的影响因素。接下来,本地匹配组件针对每个候选实体的模式信息与目标实体类型所对应的全局模式进行匹配,结合实体类型匹配程度、主题相关度以及Web源重要度来计算候选实体在某Web数据源的本地得分。然后,通过全局聚集组件、利用实体关联知识将来自多个Web数据源的实体进行整合,统计并聚集各实体的本地得分来计算其全局得分。最后,按照实体全局得分由高到低的顺序将前Top-K结果返回给查询用户。
实体评估包括三个过程:查询预处理、局部评估和全局聚集。其中,查询预处理主要包括两方面工作:数据源预处理和查询请求预处理,分别通过实体类型映射技术和查询重写技术来实现。局部评估由三部分组成:基于概率的实体类型匹配、基于视效的实体评估和基于PageRank的Web数据源评估。通过局部评估处理以后,每个候选实体都具有一个在其Web数据源范围内的本地得分。由于多个数据源所提供的候选实体存在交叠,因此需要在全局上利用实体间的关联关系对候选实体进行整合,也就是基于它们的本地得分进行全局评估。
通过模拟实验表明,LG-ERM所采用的技术在时间代价上是可行的;同其它实体评估策略相比,LG-ERM在评估准确度上具有一定的优势。下一步,我们将针对实体评估的高效性以及参数设置的合理性等问题进行深入地研究。
我们希望文中提到的方法和技术对于开发Deep Web搜索系统具有一定的参考价值。