We use cookies to improve your experience with our site.

碳感知的跨数据中心的数据分析能耗成本优化方法

Carbon-Aware Energy Cost Optimization of Data Analytics Across Geo-Distributed Data Centers

  • 摘要:
    研究背景 互联网企业、研究机构、政府等机构在全球各地建立了大量的数据中心。这些数据中心每年需要消耗大量的电能并且逐年增加,同时需要为此支付高昂的费用。除此之外,数据中心每年也会产生大量的碳排放。因此,研究如何减少数据中心的用电成本和碳排放量,对于提高社会经济效益以及落实生态环境保护具有重要的推动作用。然而,由于不同区域的数据中心在资源容量、电价和碳排放率等方面都存在极高的异构性和动态性,如何设计有效的作业调度算法来实现作业在不同地区的数据中心间的重新分配,从而优化数据中心的用电成本以及碳排放量是一件极其困难的工作。
    目的 减少数据中心的用电成本和碳排放量,实现提高社会经济效益,并对生态环境保护具有重要的推动作用。本文研究如何最小化跨数据中心的分布式数据分析作业产生的用电成本,同时确保每个数据中心都满足自身的碳排放量约束要求。
    方法 提出了一种碳排放感知的数据备份和作业调度算法EDJC方法来最小化用电成本,该算法利用数据备份和任务调度策略来最小化用电成本并满足每个数据中心的碳排放约束。该方法根据历史作业要求计算出最低成本的数据备份策略。接着,基于数据备份策略,使用李雅普诺夫优化方法将长期作业调度优化问题分解为一系列实时作业调度优化子问题,从而最小化电力成本并满足碳排放预算。
    结果 本文基于实际数据中心的碳排放率、PUE等值设置实验参数。相较于参考方法,EDJC能够将用电成本降低至13%至96.78%之间,并且基于该方法产生的碳排放量低于大部分的对比方法产生的碳排放量。此外,本文测试了不同参数设置下的用电成本与碳排放量之间的关系。实验结果表明,当数据中心的碳排放约束越高时,EDJC产生的用电成本将越高,同时碳排放量下降。
    结论 数据中心耗电量巨大,同时不断产生大量的碳排放。降低数据中心的用电成本,同时保证数据中心的碳排放量约束,成为近年来的研究热点。由于不同数据中心的资源容量、电价和碳排放速率都存在极高的异构性并且随着时间动态变化,如何利用不同区域碳排放率和电价的时空差异,在多个数据中心之间分配负载,减少数据中心的用电成本并满足每个数据中心的碳排放约束是一个极具挑战性的问题。本文针对具有输入数据依赖的跨数据中心的数据分析作业,考虑通过数据备份和作业调度两种方式,在多个数据中心之间进行负载重分配来降低数据中心中完成作业的用电成本。实验结果表明,相较于其他方法,本文提出的方法能显著的降低数据中心的用电成本,同时满足数据中心的碳排放量约束。

     

    Abstract: The amount and scale of worldwide data centers grow rapidly in the era of big data, leading to massive energy consumption and formidable carbon emission. To achieve the efficient and sustainable development of information technology (IT) industry, researchers propose to schedule data or data analytics jobs to data centers with low electricity prices and carbon emission rates. However, due to the highly heterogeneous and dynamic nature of geo-distributed data centers in terms of resource capacity, electricity price, and the rate of carbon emissions, it is quite difficult to optimize the electricity cost and carbon emission of data centers over a long period. In this paper, we propose an energy-aware data backup and job scheduling method with minimal cost (EDJC) to minimize the electricity cost of geo-distributed data analytics jobs, and simultaneously ensure the long-term carbon emission budget of each data center. Specifically, we firstly design a cost-effective data backup algorithm to generate a data backup strategy that minimizes cost based on historical job requirements. After that, based on the data backup strategy, we utilize an online carbon-aware job scheduling algorithm to calculate the job scheduling strategy in each time slot. In this algorithm, we use the Lyapunov optimization to decompose the long-term job scheduling optimization problem into a series of real-time job scheduling optimization subproblems, and thereby minimize the electricity cost and satisfy the budget of carbon emission. The experimental results show that the EDJC method can significantly reduce the total electricity cost of the data center and meet the carbon emission constraints of the data center at the same time.

     

/

返回文章
返回