We use cookies to improve your experience with our site.

千核片上网络中采用有界模型检验的并行指令级自测试方法

Parallel Software-Based Self-Testing with Bounded Model Checking for Kilo-Core Networks-on-Chip

  • 摘要: 在线测试对于确保基于千核片上网络 (NoC) 互连结构的下一代超级计算机的可靠运行至关重要。我们提出了一种基于并行软件的自测试 (SBST) 解决方案,该解决方案利用有界模型检查 (BMC) 技术来生成测试序列和并行数据包。在这种方法中,带有 BMC 的并行 SBST 为每个路由器的内部功能推导前导序列,并检测与该功能相关的所有功能可测试故障。然后使用蒙特卡洛模拟算法搜索并行数据包的近似最优配置,从而保证测试质量并最小化测试成本。最后,采用多线程技术,保证蒙特卡罗模拟能够在更大的随机空间内达到近似最优配置,减少并行测试的生成时间。实验结果表明,所提出的方法在减少测试开销的情况下实现了高故障覆盖率。此外,通过SBST在功能模式下进行在线测试,有效避免了千核NoC因功能不可测试轮次而导致的过度测试问题。
    研究背景 由于其出色的并行通信能力,大规模片上网络已成为一种很有前途的超级计算机架构。目前,许多研究机构都在尝试设计千核片上网络,用于下一代超级计算机。
    目的 千核片上网络需要鲁棒性和容错性,因为它不仅用于低故障情况。一个可行的解决方案是在单个芯片上实现更多的处理内核,丢弃有故障的内核和链路,只要其可用内核数满足设计要求,就将故障芯片视为好芯片。为了实现这个方案,我们首先需要一种在线测试方法来发现片上网络中的故障。
    方法 1) 采用有界模型检验的指令级自测试方法可以推导出每个内部功能的前导序列,并检测出片上网络缓存或交换器中与各种功能相关的所有功能可测试故障;2) 开发了蒙特卡罗模拟算法,寻找并行测试包的近似最优配置,既保证了测试质量,又最大限度地减少了测试开销;3) 采用多线程技术,便于蒙特卡罗模拟在较大的随机空间中寻找近似最优配置,减少并行测试的生成时间。
    结果 1) 蒙特卡罗模拟可以找到一个近似的最佳分组配置。该配置不仅尽可能地覆盖了测试场景,而且最大限度地降低了测试成本。2) 高级模拟器和多线程技术有效支持蒙特卡罗模拟。3) 并行 SBST 有效地测试了我们实验中使用的 ki-lo-core NoC,它在千核 NoC 上总共实现了 94.08% 的故障覆盖率。4) PSBST 适合在线测试的另一个原因在于它的成本可以忽略不计。
    结论 实验结果表明,该方法具有较高的测试质量,并避免了功能模式中功能不可测试的轮流导致的过度测试问题。

     

    Abstract: Online testing is critical to ensuring reliable operations of the next generation of supercomputers based on a kilo-core network-on-chip (NoC) interconnection fabric. We present a parallel software-based self-testing (SBST) solution that makes use of the bounded model checking (BMC) technique to generate test sequences and parallel packets. In this method, the parallel SBST with BMC derives the leading sequence for each router’s internal function and detects all functionally-testable faults related to the function. A Monte-Carlo simulation algorithm is then used to search for the approximately optimum configuration of the parallel packets, which guarantees the test quality and minimizes the test cost. Finally, a multi-threading technology is used to ensure that the Monte-Carlo simulation can reach the approximately optimum configuration in a large random space and reduce the generating time of the parallel test. Experimental results show that the proposed method achieves a high fault coverage with a reduced test overhead. Moreover, by performing online testing in the functional mode with SBST, it effectively avoids the over-testing problem caused by functionally untestable turns in kilo-core NoCs.

     

/

返回文章
返回