解决数据库集成中的语义冲突:一种基于本体的新方法
An Ontology-Based Approach for Semantic Conflict Resolution in Database Integration
-
摘要: 数据集成主要完成两方面的工作:一是鉴别不同数据源中的相关概念并解决其间的模式和语义冲突;另一方面是构建多个异构数据源的全局访问视图。Alon Halevy等指出信息集成面临的第一个挑战就是语义互操作问题。我们在本文中关注前一个问题,并且把数据源类型限定于关系数据库。传统的数据集成研究,依赖模式映射和模式转换较好地解决了模式冲突问题。但由于缺乏数据语义的显式表达能力,无法解决大部分的语义冲突。本体(ontology)是对共享概念的形式化和显式的表示。它作为语义互操作的关键支撑工具,为数据语义的显式表示提供了可能,相对于关系数据库模式(RDB schema)具有表达能力强、基于逻辑理论和适用场景广泛等优点。现有的基于本体的语义集成方法大致可分为两类:1. 基于领域本体:领域本体作为特定应用领域的共享概念库,约定了概念的属性、语义和规则等知识,参与交换的数据源模式使用共享概念构建,从而实现领域内的语义集成。该类研究大多集中在特定行业领域,如生命科学领域的Gene Ontology。本体的构建依赖领域专家的参与,规模比较庞大,由于领域知识的复杂性和局限性,该方法缺乏通用性。2. 基于本体映射:把数据源模式表示为本体后,将传统的数据库模式匹配问题转化为本体映射的建立。首先需要人工创建本体间的映射,或者由启发式、机器学习策略基于结构和术语词汇(lexical)等特征辅助发现映射关系,然后使用一阶谓词逻辑或视图的方式表示本体映射,以便进行逻辑推理获取高阶映射知识。基于本体映射的方法通常是领域无关的,代表性的研究工作包括InfoSleuth和OBSERVER等。该方法的主要问题在于准确性和实用性不够,全自动的映射发现仍是一种理想状况。基于本体的语义互操作要求系统不仅能够检测和解决集成过程中的语义冲突,还要保持各种资源的自治性。同时,为克服现有的基于本体语义集成方法的缺点,系统还应保证领域通用性和集成模型无关性。本文为解决以上需求,提出了一种新的基于本体的语义冲突解决方法。综合数据集成领域的实践经验和已有研究成果,我们首先给出了一种语义冲突分类框架,基于该框架建立了语义冲突分类本体SCO(Ontology for classification of Semantic Conflicts),并且使用RDF图进行描述。然后我们使用OWL语言建立关系数据库模式的语义扩展模型ESM(Extended Semantic Model),以利用冲突分类本体SCO解决语义冲突。这两部分构成了语义冲突的表示模型SCM(Semantic Conflict Model)。在此基础上,我们给出了语义冲突检测和解决的算法及软件环境。系统实现证明,它可以有效解决大部分实际应用中的语义冲突,并且保证领域通用性和集成模型无关性。Abstract: An important task in database integration is toresolve data conflicts, on both schema-level and semantic-level.Especially difficult the latter is. Some existing ontology-basedapproaches have been criticized for their lack of domain generality andsemantic richness. With the aim to overcome these limitations, thispaper introduces a systematic approach for detecting and resolvingvarious semantic conflicts in heterogeneous databases, which includestwo important parts: a semantic conflict representation model based onour classification framework of semantic conflicts, and a methodologyfor detecting and resolving semantic conflicts based on this model.The system has been developed, experimental evaluations on whichindicate that this approach can resolve much of the semantic conflictseffectively, and keep independent of domains and integration patterns.