一种基于本体的半自动化模式集成
An Ontology-Based Framework for Semi-Automatic Schema Integration
-
摘要: 大量的数据通过网络进行交换,这就是所谓的信息时代。所有用户和决策人员都在利用在线信息;这些信息来自不同类型的资源,需要为其提供所有信息的综合视图。模式集成可以为用户提供集成的信息,而不需要集成真实的数据。关于这个领域的研究非常广泛。模式集成需要解决模式之间所存在的句法和语义方面的冲突。模式集成系统大多是基于包装器—调解器(Wrapper-Mediator)方式的,后者在包装器(W rapper)层将模式转换成公共数据模型(CDM),这样便于发现一致性。调解器(Mediator)层则通过基于学习和基于规则的技术来寻找模式之间的一致性。有些模式集成技术还采用了本体论的方法。 在此文中,我们提出了一种模式集成的框架,它综合和加强了现有的模式集成方法。这是一种综合采用基于规则的方法和机器学习方法的优长的包装器—调解器框架。它采用本体论中的混合方法来排除模式集成的冲突,从这种意义上说,它同样是一种基于本体论的方法。 我们所提出的框架的主要贡献在于: ? 以前的框架只使用单一的方法,而我们的框架则同时使用了基于规则的方法和基于学习机的方法来生成相似系数,进而使用本体论方法来整合模式。 ? 构造了全局本体,使得不仅能够保留其在相应领域中使用的术语,同时还能保留其语义细节,并且总是能够进行更新以纳入相应领域的新细节。 ? 其它框架采用形式化的符号来计算任意两个概念之间的相似性。在这一过程中,这些框架并没有考虑这些概念与其它概念之间存在的关系。我们的框架所采用的形式化符号不仅能够反映相似性的其它方面,还能反映两个概念之间存在的关系。 ? 我们的框架提供一个完全自动化的机制来保留模式整合中的所有关系映射基数。 ? 我们的框架不仅解决主要的冲突,包括数据类型问题、映射基数保存问题、以及一些关键性的冲突;并且试图自动捕捉模式集成过程中的达到分钟粒度的细节。 我们的框架是基于二元集成方法的,即一次集成两个模式。框架分成三层。第一层由两部分组成,每一个不同类型的模式有一个独立的包装机(Wrapper), 和一个名称学习机(Name Learner)。包装机用于将模式转换成公共数据模型。与以前那些基于 包装机—调解机的系统不同,我们的框架在这一层次也使用了机器学习来消除名称的不确定性。也就是说,我们在框架的第一层综合采用了 包装机—调解机方法和机器学习方法。 框架的第二层使用了本体论的混合方法,所以它是基于本体的。这一层也由两个基本部分组成,即全局本体(Global Ontology)和局部本体(local ontologies)。全局本体存储一个给定信息领域的所有句法和语义细节;局部模式本体是使用全局本体提取出来的。某些现有的系统使用一种仅由术语组成的知识库,我们的框架则提出了一种全局本体,它既能存储特定领域的术语,还能存储语义。 框架的第三层由三个部分组成,即:映射案例库(Mapping Case-base)、属性匹配器(Attribute Matcher)和概念匹配器(Concept Matcher)。这一层采用了基于规则的方法和基于学习机的方法。这一层即是调解器层,它利用一个规则集合,结合机器学习来匹配和集成模式中的要素。映射案例库存储所有由框架产生的映射,当前模式的匹配正是以这些过去的映射为基础进行的。概念匹配器用于计算两个模式的概念之间的相似系数,并对其进行匹配。我们的框架改进了 MOMIS 框架中提出的相似性系数,用其计算模式元素之间的相似性。属性匹配器用于对两个模式的匹配概念的属性进行匹配。 在早先的系统中,没有人提出自动保留全局模式中的所有关系的机制。我们的框架还针对这种保留关系的自动化过程进行了尝试。 因此,我们的框架试图通过加强现有的框架来改进模式集成过程的自动化程度,并取得了一些新的进展。Abstract: Currently, schema integration frameworks use approaches like rule-based, machine learning, etc. This paper presents an ontology-based wrapper-mediator framework that uses both the rule-based and machine learning strategies at the same time. The proposed framework uses global and local ontologies for resolving syntactic and semanticheterogeneity, and XML for interoperability. The concepts in the candidate schemas are merged on the basis of the similarity coefficient, which is calculated using the defined rules and the prior mappings stored in the case-base.