HARLD：一种基于RISC-V的紧耦合异构LDPC译码计算架构

王兵; 马子睿; 吴海彬; 张芙菻; 王越; 范志华; 李文明; 叶笑春; 范东睿

doi:10.1007/s11390-025-5052-5

HARLD：一种基于RISC-V的紧耦合异构LDPC译码计算架构

HARLD: A RISC-V Based Tightly Coupled Heterogeneous Computing Architecture for Low-Density Parity Check Decoding

摘要

摘要:
研究背景 在通信系统尤其是5G场景中，LDPC是一种重要的信道编解码方案。良好的LDPC译码加速方法能够更好地满足5G应用对高通量、低时延通信以及低能耗的要求。LDPC译码算法中大量的稀疏矩阵运算和复杂迭代使得仅利用通用处理器的计算很难满足应用要求。定制的LDPC译码IP虽然能满足性能要求，但是缺乏灵活性，无法处理信道译码端的其他任务，而在SoC层面采用定制LDPC译码IP的通用处理器，所导致的频繁的通信开销往往是难以接受的。
目的本研究旨在提出一种在满足低通信及硬件资源开销的同时，既能满足LDPC译码性能的高要求，又能处理信道译码端的其他任务的新方法。
方法本文提出了基于RISC-V的LDPC译码异构架构（HARLD），通过扩展RISC-V指令将数据阵列（DA）与CPU紧耦合，从而获得更好的加速效果。RISC-V指令集扩展（L扩展）包含Lctrl扩展和Larith扩展，前者实现对DA的控制和调度，后者实现对LDPC译码任务本身的加速。CPU和DA的专用硬件通信数据通路由共享内存模块、握手协议触发的PE驱动和定制的中断反馈机制实现。同时利用处理单元（PE）上的轻量级指令缓冲和优化的调度策略完成灵活的指令预取和切换及DMA传输与DA执行的流水化。
结果本文采用12纳米标准工艺库在0.8GHz频率下进行综合，测试了在6种码型配置（CS1-CS6）下HARLD的性能表现。相较于未进行指令存储优化的HARLD，轻量级指令缓冲大幅提升了IRAM的利用率，例如在CS2方案中，IRAM利用率由14.89%提升到了72.18%。相较于松耦合的异构架构，HARLD在面积、功耗和能效上都有一定提升。DA的总体面积从0.396 mm²降低至0.377 mm²，缩小了4.80%，DA的总功耗从73.976 mW降低至69.589 mW，减少了5.93%。在高码率场景（CS1）中，HARLD的能效为43.53 Gbps/W，实现了24.8%的提升，在低码率场景（CS6）中，HARLD再能效上也实现了22.8%的提升。在译码性能的分析上，我们将其与一些SOTA实现进行了对比，详见表1，同时我们也对HARLD在译码侧多个处理流程的性能进行了评估，如图1。图表显示，HARLD在维持高译码性能的同时拥有灵活的处理其他任务的能力。
结论利用HARLD中的紧耦合设计和L扩展，不仅实现了快速的LDPC计算，同时也建立了CPU与DA之间高效的通信与控制体系。同时，HARLD既能够完成LDPC的高吞吐和低时延译码，也能够灵活地处理其他信道译码端的任务，从而在一定程度上克服了现有LDPC译码方案中无法兼顾灵活性和高效译码的性能缺陷。可以预见，HARLD的应用范围将不仅限于信道译码端，而是进一步拓展至需要计算与控制协同处理的场景。

Abstract: Low-density parity check (LDPC) decoding is an efficient error correction method in communication systems, especially in 5G networks, which require high performance and low latency; while common general-purpose architectures cannot meet the requirements. There has been some research on accelerating LDPC decoding, but the current methods still suffer from limitations in performance, flexibility, and communication cost. In this paper, we propose HARLD (Heterogeneous Architecture of RISC-V for LDPC Decoding), a tightly coupled heterogeneous computing architecture based on extended RISC-V for LDPC decoding, consisting of a CPU and a processing array. Compared with a loosely coupled System-on-Chip (SoC)-bus baseline, the tightly coupled design improves throughput by up to 32.4% and reduces average latency by up to 24.7% across evaluated configurations, while also enhancing resource and energy efficiency: processing element utilization up to 93.5%, instruction RAM utilization increased by up to 4.8x, and energy efficiency improved by up to 24.8%. At the system level, area and power are reduced by 17.6% and 10.2%, respectively, versus the loosely coupled design.

HTML全文

参考文献()

施引文献

资源附件()