We use cookies to improve your experience with our site.

基于语义与快速索引的海洋数据服务优化

Improving Ocean Data Services with Semantics and Quick Index

  • 摘要: 1、研究背景
    随着信息技术的飞速发展和海洋观测技术的进步,海洋科学正进入大数据时代。一方面,各类传感器和自主观测平台已获得了PB量级的观测数据;另一方面,数值预报模式等大规模应用程序每天产生几十TB的模拟结果。海洋数据量和多样性的爆炸性增长对海洋数据的利用和管理提出了新的挑战。首先,缺乏标准的、全面的海洋元数据,无法统一地识别和访问数据集,目前海洋数据目录均采用了不同的标准描述观测系统或观测数据;其次,不同平台和观测系统产生的海洋数据类型与格式多样、异构、且术语可能存在歧义,使得各类数据无法互操作;第三,缺乏有效的数据索引,导致很难快速地从海量异构数据中找到所需的有价值的信息。
    2、目的
    本文研究旨在为海洋数据用户提供基于语义的快速海洋数据发现服务,用户无需具备全面的海洋领域知识,仅通过相关关键词,系统便可通过语义推理,快速地为用户返回所有相关数据服务。
    3、方法
    本文提出并实现了DOLP(Data Ontology and List based Publishing)系统。该系统将本体语义与信息检索相结合,利用服务计算技术改进海洋数据发现性能和访问率。首先应用海洋元数据构建本体模型OEDO(Ocean Environmental Data Ontology),通过该模型对多源异构海洋数据进行统一表示。该模型概念作为数据服务的输入与输出参数发布至快速服务查询列表QSQL(Quick Service Query List)中,并在服务发布过程中完成本体概念的语义预推理,避免在服务发现过程中进行语义推理,从而降低用户数据服务查询耗时,提升数据发现性能。在语义预推理基础之上,本文分别基于WordNet和本体属性对本体概念及其语义关系进行了扩展推理,使得用户可获取到与所查询数据语义相关的所有数据服务,从而提高数据访问率。
    4、结果
    与基于关键字的方法相比,基于语义的DOLP系统支持查询与用户请求语义相关的数据服务,数据访问召回率(recall)提高30%;与传统的直接语义推理服务发现方法相比,基于QSQL预推理的DOLP系统的服务查询平均响应时间低两个数量级。DOLP系统显著改善了对数据服务发现性能和访问率,但仍然存在局限性。本文使用尽可能全面的海洋元数据构建OEDO模型,然而,海洋数据的类型和体量在不断增长,相应地,元数据也在不断增加,本文基于WordNet的语义扩展缺乏领域知识。集成专用领域知识库将使数据访问性能进一步提升,同时,专用领域知识库亦是海洋数据服务面临的关键挑战之一。
    5、结论
    结论表明,基于语义和快速索引列表的方法可显著改进海洋数据服务发现性能和效率。针对目前系统的局限性,未来可结合领域知识扩展OEDO模型,以丰富模型语义信息;另一方面,结合海洋数据时空特征,创建数据时空索引并存储至QSQL结构中,以进一步加速数据发现。虽然本文OEDO本体是领域模型,但它可容易地替换为其他本体模型;QSQL是通用的数据结构,用于存储预推断的语义信息,且是领域无关的,因此,本系统可扩展至其他应用领域。

     

    Abstract: Massive ocean data acquired by various observing platforms and sensors poses new challenges to data management and utilization. Typically, it is difficult to find the desired data from the large amount of datasets efficiently and effectively. Most of existing methods for data discovery are based on the keyword retrieval or direct semantic reasoning, and they are either limited in data access rate or do not take the time cost into account. In this paper, we creatively design and implement a novel system to alleviate the problem by introducing semantics with ontologies, which is referred to as Data Ontology and List-Based Publishing (DOLP). Specifically, we mainly improve the ocean data services in the following three aspects. First, we propose a unified semantic model called OEDO (Ocean Environmental Data Ontology) to represent heterogeneous ocean data by metadata and to be published as data services. Second, we propose an optimized quick service query list (QSQL) data structure for storing the pre-inferred semantically related services, and reducing the service querying time. Third, we propose two algorithms for optimizing QSQL hierarchically and horizontally, respectively, which aim to extend the semantics relationships of the data service and improve the data access rate. Experimental results prove that DOLP outperforms the benchmark methods. First, our QSQL-based data discovery methods obtain a higher recall rate than the keyword-based method, and are faster than the traditional semantic method based on direct reasoning. Second, DOLP can handle more complex semantic relationships than the existing methods.

     

/

返回文章
返回