八核龙芯三号微处理器的物理设计
Physical Implementation of the Eight-Core Godson-3B Microprocessor
-
摘要: 本文介绍了八核龙芯3号Godson-3B芯片的物理设计。Godson-3B是基于65nm工艺设计的一款工作频率为1.05GHz的多核高性能处理器,片上集成了4M的二级缓存,整个芯片的面积为300mm2,片上晶体管数目为582.6M,峰值功耗为40W。Godson-3B的处理器核在原有的通用龙芯处理器核上增加了向量处理部件,能够同时执行2条256位的向量计算,可以为曙光等高性能服务器提供更强的科学计算能力。同时,Godson-3B还集成了高性能的外设接口,包括HyperTransports接口,PCI/LPC接口以及DDR2/R接口。其中Hypertransport接口的频率为800MHz,峰值带宽为6.4GB/s,DDR2/3接口的最大带宽为12.8GB/s。同时Godson-3B的封装与四核龙芯三号Godson-3A封装相比引脚上实现兼容,降低了封装和测试的成本。Godson-3B中标准单元的个数为20,564,007个,自动化的工具无法实现优化这么大规模的一个设计,因此Godson-3B的物理设计采用的全层次化的物理设计流程。整个设计切分为12个子模块,由工程师并行设计完成后再整体拼合完成整个芯片的设计。流程主要分为四个阶段:生成物理设计代码,布局规划与切分,子模块的设计实现以及顶层拼合。Godson-3B中存在多个嵌套的层次化设计流程,通过多个层次的切分,设计,拼合完成最终的设计。Godson-3B的宽度和高度分别为15000um和18000um,全局同步的时钟分布策略在这样一个大的芯片上不适用。因此,Godson-3B采用了全局异步局部同步的时钟分布策略,芯片从中间分为两个完全相同的节点,每个节点内部采用完全同步的设计方法,节点之间通过异步FIFO进行交互,同时还引入了降低时钟偏差调整电路来实现硅后时钟调整功能。Godson-3B中CPU核是时序最为关键的模块,为了减少偏上波动对CPU核性能的影响,CPU核中采用时钟网格结构来对时钟偏差进行自纠正,提高时钟网络的性能。Godson-3B芯片不但拥有高计算性能的特点,还具有低功耗的优点。除了寄存器堆等一些时序关键的模块,芯片中的其他部分都采用了静态电路,大大减少了动态功耗。另外,Godson-3B中还采用了多层次多模式的时钟门控策略,有85%的时序单元的时钟信号能够被门控。同时,Godson-3B设计过程中采用了多阈值单元的替换优化方法,在满足时序约束的条件下减少静态功耗。基于具有超高向量计算能力的八核Godson-3B处理器,曙光6000服务器只需要用8000片Godson-3B的芯片就可以达到万亿次的计算能力。Godson-3B是一款高性能低功耗的多核处理器。为了减少设计的难度,缩短设计时间,芯片采用了全层次化的设计流程,将整个芯片分成多个更小的设计并行实现,最终拼合完成芯片。先进的时钟分布策略比如全局异步局部同步,时钟网格以及硅后时钟偏差调整电路等都被引入来实现高性能的时钟分布。同时,静态电路设计方法,多层次多模式时钟门控策略以及多阈值标准单元的使用大大降低了Godson-3B的动态功耗和静态功耗。最终实现了工作频率为1.05GHz,峰值功耗为40W的Godson-3B。Abstract: The Godson-3B processor is a powerful processor designed for high performance servers including Dawning Servers. It offers significantly improved performance over previous Godson-3 series CPUs by incorporating eight CPU cores and vector computing units. It contains 582.6M transistors within 300mm2 area in 65 nm technology and is implemented in parallel with full hierarchical design flows. In Godson-3B, advanced clock distribution mechanisms including GALS (Globally Asynchronous Locally Synchronous) and clock mesh are adopted to obtain an OCV tolerable clock network. Custom-designed de-skew modules are also implemented to afford further latency balance after fabrication. The power reduction of Godson- 3B is maintained by MLMM (Multi Level Multi Mode) clock gating and multi-threshold-voltage cells substitution schemes. The highest frequency of Godson-3B is 1.05GHz and the peak performance is 128GFlops (double-precision) or 256GFlops (single-precision) with 40W power consumption.