摘要:
1.本文的创新点
查询接口匹配是Deep Web数据集成中的一个关键问题. 查询接口模式通常包含不同类型的信息, 每种类型的信息从一个侧面描述查询接口模式, 仅依赖一种类型的信息构建匹配器进行查询接口匹配具有片面性和不准确性.证据理论是组合多个不确定信息源的经典方法.但是,由于每个匹配器在不同匹配任务中可信度不同, 而现有的证据理论却将不同匹配器看作同等重要地位,导致查询接口匹配的性能有待进一步提高. 针对此问题, 本文提出一种基于扩展证据理论的Deep Web查询接口匹配方法, 主要包括以下三个创新点:
(1)提出一种动态预测匹配器可信度的方法, 自动获取每个匹配器在不同匹配任务中的可信度。
(2)提出一种扩展的证据理论,将匹配器可信度引入到现有的证据理论中,组合多个匹配器的结果,克服现有证据理论在不同匹配任务中同等对待每个匹配器的不足。
(3)提出一种top-k全局最优策略进行匹配决策,获得最终的匹配结果,有效解决了候选匹配的冲突问题。
2.实现方法
首先,利用模式元素自身的特征(比如,属性长度、单词个数等), 训练学习器, 预测每个匹配器在不同匹配任务中准确度, 将其转化为每个匹配器的可信度; 然后, 将现有的证据理论扩展为指数加权证据理论, 权重表示不同匹配器的可信度, 使得扩展后的证据理论能够有区别的对待不同匹配器的结果; 接着, 利用扩展证据理论组合多个匹配器结果, 本文的匹配器主要从字符串、语义以及数据类型三个方面进行构建; 最后, 通过top-k全局最优策略进行匹配决策,得到最终的匹配结果。
3.结论及未来待解决的问题
本文提出一种基于扩展证据理论的Deep Web查询接口匹配方法,通过引入匹配器可信度动态预测机制,得到不同匹配器在不同匹配任务中的可信度;通过利用匹配器可信度扩展现有的证据理论,进行多个匹配器结果的组合;通过top-k全局最优策略进行匹配决策,获得最终的匹配结果。在多个不同领域真实数据集上的实验结果表明,本文所提出的方法能够显著地提高查询接口匹配的准确率和召回率。
未来的研究工作将主要围绕如何如何利用更多的查询接口特征提高查询接口匹配的准确性和如何进行1:m匹配而展开。
4.实用价值或应用前景
Internet的快速发展见证了网络信息正在以前所未有的速率增长,其中很大一部分信息被“深藏”于各种各样的Web数据库中,用户只能通过向查询接口提交需求来获取信息,这类信息被称为Deep Web.查询接口为用户提供了一种方便的交互方式访问潜在数据库信息,而不需要使用特定的查询语言.Web许多站点使用Web数据库提供信息,尤其在特定领域 (比如,房屋租赁、图书销售等)存在大量提供相似类型产品或服务的Web站点.对于用户而言,逐个访问每个站点,搜索、比较同类产品或服务的价格是一件十分繁琐的事情.因而, Deep Web数据集成的一个关键步骤是在领域内构建统一查询接口,用户只需与统一查询接口交互,每个站点的访问对用户透明. 查询接口匹配是实现查询接口集成的基础,对其研究具有重要的理论价值和现实意义。
查询接口模式通常包含不同类型的信息, 仅依赖一种类型的信息构建匹配器进行查询接口匹配具有片面性和不准确性.因此, 研究人员提出了各种各样的组合方法, 包括: 加权平均组合, 证据理论组合等. 加权平均组合方法考虑了每个匹配器权重, 但是其权重一旦设定就保持不变, 而每个匹配器在不同匹配任务中的性能是不一样的, 同时该方法仅仅简单加权组合没有综合考虑不同匹配器结果的内在一致性。证据理论是组合多个不确定信息源的经典方法.但是现有的证据理论同等对待每个匹配器,没有考虑每个匹配器的可信度,导致匹配准确率较低。因此, 本文提出一种扩展证据理论的Deep Web查询接口匹配方法, 给出了匹配器可信度动态预测机制,利用匹配器可信度扩展现有的证据理论,组合多个匹配器结果,通过top-k全局最优策略进行匹配决策,获得最终的匹配结果。实验结果表明,所提出的方法能够显著地提高查询接口匹配的准确率和召回率。