基于多层感知网的阿里巴巴数据中心动态资源管理实践
A Case for Adaptive Resource Management in Alibaba Datacenter Using Neural Networks
-
摘要: 研究目的: 资源利用率和服务质量是数据中心资源管理所面临的两个难以调和的关键问题。一方面数据中心需要管理大量延迟敏感的在线应用,他们对服务尾延迟要求非常严格,但资源利用率较低,导致数据中心整体资源利用率偏低,造成大量的资源浪费。然而将延迟敏感型应用与计算类型应用混合部署拉高整体资源利用率的时候,大量研究和实践发现,延迟敏感类型的应用会出现不同程度的性能波动,严重影响服务质量。这一问题普遍存在于当前主流云计算平台,如谷歌、亚马逊、阿里巴巴等,至今仍难以完全解决,服务提供商只能通过维持较低的资源利用率来优先保障在线应用的服务质量。本文尝试研究一种资源管理框架Magi,能够实现混合部署拉高资源利用率的同时也能保障在线应用服务质量。
研究方法: 混合部署带来的性能波动归根结底是混部应用无序共享底层硬件资源造成的,因此一个最直观的方法就是通过细粒度资源隔离机制(如CPU动态调整、共享缓存划分、内存带宽划分等)保障在线应用在不同共享资源上的资源需求即可,然而在线应用不同时刻的资源需求仍然是一个难以精确量化的问题,因此根据在线应用的实时性能波动进行反馈调节成为了一种行之有效的方法。而在线反馈调节面临两个重要挑战:1)何时调?如何区分当前应用是正常性能波动还是受到了性能干扰?2)怎么调?如何确定当前应用在哪个资源产生竞争从而造成性能干扰?由于多级共享资源造成应用性能干扰成因复杂,我们引入了多层感知网模型,建立各类资源实时使用状态、共享应用运行状态、系统整体环境状态等因素与当前监控在线应用性能之间的关系。通过多层感知网模型,当发生应用性能波动,我们可以通过模型追溯造成当前性能波动的因素,如果造成性能波动的原因追溯到应用自身因素,则认为是正常波动,当追溯到系统环境中的其他因素,则认定为造成性能干扰的关键瓶颈资源,对该应用在关键瓶颈资源进行资源扩充并隔离,保障应用的服务质量。
结果: 实验结果表明,随着共享应用的不断增加,Magi可以使得在线应用Xapian平均延迟和尾延迟均保持稳定,比无序竞争场景的尾延迟降低2-4倍,尾延迟性能波动从(1.53%~130.53%)降低到了(3.15%~9.51%),同时能够维持较高的资源利用率。但Magi保障下的资源利用率相对于无序竞争还是下降了43%左右,由此可知Magi对干扰应用的资源限制也一定程度上遏制了资源利用率的提升。
结论: 本文提出一种基于多层感知网模型的数据中心动态资源管理框架,能够在混部环境下有效保障在线应用的尾延迟的同时提高整体资源利用率。实验表明多层感知网模型可以有效建立混部环境下复杂因素与应用性能之间的关系,协助进行动态资源调整。但由于需要额外离线训练同时泛化能力有限,多层感知网离实际生产环境中还存在一定距离,需要进一步研究优化。Abstract: Both resource efficiency and application QoS have been big concerns of datacenter operators for a long time, but remain to be irreconcilable. High resource utilization increases the risk of resource contention between co-located workload, which makes latency-critical (LC) applications suffer unpredictable, and even unacceptable performance. Plenty of prior work devotes the effort on exploiting effective mechanisms to protect the QoS of LC applications while improving resource efficiency. In this paper, we propose MAGI, a resource management runtime that leverages neural networks to monitor and further pinpoint the root cause of performance interference, and adjusts resource shares of corresponding applications to ensure the QoS of LC applications. MAGI is a practice in Alibaba datacenter to provide on-demand resource adjustment for applications using neural networks. The experimental results show that MAGI could reduce up to 87.3% performance degradation of LC application when co-located with other antagonist applications.