We use cookies to improve your experience with our site.
王晨曦, 单一舟, 左鹏飞, 崔慧敏. 面向资源解耦合架构的云计算系统软件[J]. 计算机科学技术学报, 2023, 38(5): 949-969. DOI: 10.1007/s11390-023-3272-0
引用本文: 王晨曦, 单一舟, 左鹏飞, 崔慧敏. 面向资源解耦合架构的云计算系统软件[J]. 计算机科学技术学报, 2023, 38(5): 949-969. DOI: 10.1007/s11390-023-3272-0
Wang CX, Shan YZ, Zuo PF et al. Reinvent cloud software stacks for resource disaggregation. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 38(5): 949−969 Sept. 2023. DOI: 10.1007/s11390-023-3272-0.
Citation: Wang CX, Shan YZ, Zuo PF et al. Reinvent cloud software stacks for resource disaggregation. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 38(5): 949−969 Sept. 2023. DOI: 10.1007/s11390-023-3272-0.

面向资源解耦合架构的云计算系统软件

Reinvent Cloud Software Stacks for Resource Disaggregation

  • 摘要:
    研究背景 随着云服务商对数据中心可用性、可靠性、可维护性要求的不断提高,资源解耦合架构受到了工业界、学术界越来越多的关注。资源解耦合即为打破单一服务器的边界,将不同类型的硬件资源通过高速网络互联为一个个资源池,例如,计算资源池、内存资源池、存储资源池等。此时,从应用角度来看,一个应用可以跨越服务器物理边界,获取更大规模的计算、内存资源;而从数据中心角度来看,一个服务器中不同类型的硬件资源可以独立的分配给不同的应用使用,无需考虑其他类型的硬件资源,显著提升了数据中心的资源利用率。然而,由于现有云计算系统均为面向传统的服务器开发,在管理资源解耦合架构时会给上层云应用造成性能、延迟等一系列问题。因此,亟需针对新型资源解耦合架构重构云计算系统软件栈。
    目的 探讨适合资源解耦合架构的新型计算抽象、数据管理方式等,从而有效利用解耦合架构的优势,提升云应用的性能。
    方法 本文提出了跨编程接口、运行时、操作系统来构建程序语义感知的云计算系统软件栈的设想,并从以下两个方面进行了研究:(1)新型解耦合架构带来了微秒级延迟、硬件资源异质化、以及低效的数据同步等问题。因此,需要提出匹配的计算、数据抽象来构建专用的解耦合数据结构、运行时系统,以及操作系统,提高计算效率以及资源管理效率;(2)同时,现有云计算系统的层次化设计使上层应用语义(如计算、访存特征)无法有效传递至底层系统,导致数据预取、数据布局等系统级优化效率低下。因此,需要在横向提供程序语义隔离机制,避免不同类型应用之间的干扰,同时在纵向构建程序语义传递通路,保证应用特征可以跨层传递,指导各层次的管理策略高效执行。
    结果 针对资源解耦合数据中心,相比于传统云计算系统,新型资源解耦合云计算系统不但有效降低了云应用的性能波动,还将云应用性能加速达50%以上,尾延迟降低99%。
    结论 资源解耦合架构极大地扩展了数据中心的可用性、可靠性、可维护性,并推动云计算向着下一个时代发展。然而,传统的云计算系统给运行于其上的云应用带来了性能、延迟、安全等一系列问题。本文提出了跨编程接口、运行时、操作系统构建程序语义感知的云计算系统软件栈的思路——构建匹配资源解耦合架构的解耦合计算抽象、数据抽象、管理策略等,并提供跨系统层次的程序语义传递机制,指导各层管理策略的高效执行。

     

    Abstract: Due to the unprecedented development of low-latency interconnect technology, building large-scale disaggregated architecture is drawing more and more attention from both industry and academia. Resource disaggregation is a new way to organize the hardware resources of datacenters, and has the potential to overcome the limitations, e.g., low resource utilization and low reliability, of conventional datacenters. However, the emerging disaggregated architecture brings severe performance and latency problems to the existing cloud systems. In this paper, we take memory disaggregation as an example to demonstrate the unique challenges that the disaggregated datacenter poses to the existing cloud software stacks, e.g., programming interface, language runtime, and operating system, and further discuss the possible ways to reinvent the cloud systems.

     

/

返回文章
返回