We use cookies to improve your experience with our site.

Tianhe-2数据存储与管理系统设计与实现

Design and Implementation of the Tianhe-2 Data Storage and Management System

  • 摘要: 随着高性能计算、大数据与人工智能的不断融合,高性能计算社区亟需同时支持这三种场景的计算系统来加速科学发现。然而,科学数据的爆炸性增长以及不同场景下的应用截然不同的I/O特点,导致传统的高性能计算系统在支持此类融合应用时面临严峻的数据存储与管理挑战。本文探讨了驱动该融合趋势发展的背景和原因,剖析数据存储与管理方面的三个挑战,并总结了我们在并行文件系统、数据管理中间件和上层应用这三个层面上应对这些挑战所做的工作。其中,文件系统方面,我们提出元数据预分配和代理服务器机制提升元数据操作吞吐率;定制元数据索引结构和Key-Value数据库优化大目录和小文件访问延迟。数据管理中间件方面,我们设计层次式数据管理策略优化I/O性能;设计数据感知任务调度机制减少数据移动开销;提出基于机器学习的数据管理策略智能匹配应用特征;设计原位索引和数据查询机制满足数据定位需求。上层应用方面,我们以天河二号超算系统上的计算模拟、数据分析、深度学习和科学工作流等应用为代表,介绍部分针对应用的特定优化,并评估各项优化方案取得的效果。随着高性能计算系统朝着E级计算不断发展,本文重点关注如何实现"应用驱动"的数据管理,旨在为E级计算生态系统与大数据和人工智能的深度融合提供可借鉴的经验。

     

    Abstract: With the convergence of high-performance computing (HPC), big data and artificial intelligence (AI), the HPC community is pushing for "triple use" systems to expedite scientific discoveries. However, supporting these converged applications on HPC systems presents formidable challenges in terms of storage and data management due to the explosive growth of scientific data and the fundamental differences in I/O characteristics among HPC, big data and AI workloads. In this paper, we discuss the driving force behind the converging trend, highlight three data management challenges, and summarize our efforts in addressing these data management challenges on a typical HPC system at the parallel file system, data management middleware, and user application levels. As HPC systems are approaching the border of exascale computing, this paper sheds light on how to enable application-driven data management as a preliminary step toward the deep convergence of exascale computing ecosystems, big data, and AI.

     

/

返回文章
返回