基于可调整段数流水线处理器的一种细粒度动态功耗性能比优化方案

姚骏

doi:10.1007/s11390-011-1132-9

基于可调整段数流水线处理器的一种细粒度动态功耗性能比优化方案

姚骏,

A Fine-Grained Runtime Power/Performance Optimization Method for Processors with Adaptive Pipeline Depth

摘要

摘要: 动态调整输入电压（Dynamic Voltage Scaling, DVS）方法通过降低处理器在低工作负荷状态下的电压来减少耗电量，并在负载上升时恢复电压。这种调整引入数十到数百微秒的处理停顿，不利于超细粒度（微妙级别）的节能控制。基于段数可调整流水线(Adaptive Depth Pipeline, ADP)的处理器节能方法通过设置专用的逻辑信号来停止部分处理器流水线的段间寄存器的使用来达到节能目的。这种方法与流水线的单次清空延迟相当，只有数十纳秒，能用来进行超细粒度的节能控制。基于段数可调整方案，本论文主要提出了一种超细粒度的功耗性能比优化方案。论文建立处理器的动态功耗比模型，构筑了一个从处理器当前的性能参数（单位时间执行的指令数）到功耗性能比最优的流水线段数的映射。通过超细粒度的动态观测方法预测处理中的程序未来可能的工作负荷。而后，微处理器根据负载来调整自身的流水线到最优段数，优化功耗性能比。由于综合了多个性能参数，避免了非常短促的剧烈变化引起的过度频繁的再配置。该方法能够检测到程序执行过程中的微小变化，将处理器调整到满足负荷的最低处理能力，从而提高性能功耗比。本文采用模拟工具SimpleScalar和Wattch功耗工具包，主要参数如下：
处理器 8路流水线，乱序执行；
             RUU单元：128，LSQ单元：64；
             整数ALU单元：8，乘除单元：4；
             浮点数ALU单元：8，乘除单元：4；
             存储模块端口：8。
本文评价使用SPEC CPU2000的整数、浮点数共17个评价程序。整数应用采用优化方法后，功耗性能比降低为原来的86.5%。浮点数应用能降低5.1%的处理器的功耗性能比。这两个数据都非常接近于基于先验知识的理想化控制所能获得的最大功耗性能比的降低。本文也进行了硬件实现，与相关论文所提出的基于程序执行中的指令空间局部性标识来优化处理器功耗性能比的方法（Signature History Table, SHT方法）相比，能有效的降低额外硬件的需求。在相同的功耗性能比的提高的前提下，本文所提出方法使用的额外硬件资源为SHT方法的14.1%，并将控制算法的计算时间由50时钟周期(Clock Cycle)减小到1时钟周期。本论文主要有以下贡献：
1. 建立了处理器的功耗性能比的模型，考察了能较精确反映处理器功耗性能比的工作采样参数。
2. 提出了一种超细粒度的执行程序的特性分析方法，并对需要的额外硬件进行了合理的优化。能够利用较小的硬件资源来较精确的预测执行程序在下一个工作时间段的特性，即最大负载要求。
3. 基于1和2，实现了细粒度的处理器功耗优化，从而能够最大限度的利用可调整流水线的快速再配置的特性。

Abstract: Recently, a method known as pipeline stage unification (PSU) has been proposed to alleviate the increasing energy consumption problem in modern microprocessors. PSU achieves a high energy efficiency by employing a changeable pipeline depth and its working scheme is eligible for a fine control method. In this paper, we propose a dynamic method to study fine-grained program interval behaviors based on some easy-to-get runtime processor metrics. Using this method to determine the proper PSU configurations during the program execution, we are able to achieve an averaged 13.5% energydelay-product (EDP) reduction for SPEC CPU2000 integer benchmarks, compared to the baseline processor. This value is only 0.14% larger than the theoretically idealized controlling. Our hardware synthesis result indicates that the proposed method can largely decrease the hardware overhead in both area and delay costs, as compared to a previous program study method which is based on working set signatures.

HTML全文

参考文献()

施引文献

资源附件()