基于互补逻辑和交替重试的差错恢复结构
An Error Recoverable Structure Based on Complementary Logic and Alternating- Retry
-
摘要: 在过去的几十年里,超大规模集成电路( VLSI )技术极大地改进了集成电路的可靠性,因此使得许多容错方法(特别是那些高面积开销和大延迟的方法)的应用仅被限于可信性关键领域。 近年来上述情况发生了变化。 VLSI 特征尺寸的缩小和芯片面积的增加导致了电路的单位面积上缺陷数量的上升和成品率的下降。计算机系统和 VLSI 系统的实验数据表明瞬时性故障的发生比永久性故障要频繁得多,瞬时性故障和暂时性故障正在成为 VLSI 系统的主要失效模式。在低电源电压( 2.2V 或更低)或在 0.1 m m VLSI 工艺条件下,具有大于 10 MeV 能级的宇宙中子流以高达 20 中子/平方厘米/小时到达地球表面时所引起的电路的随机差错率将是难以接受的。这些粒子所引起的干扰不仅将改变存储单元的逻辑值,而且将导致逻辑电路产生瞬时输出脉冲,如果这些脉冲在某个关键的时间段里产生,比如在时钟或数据的变化过程中,那么它们将间接地使其它电路的状态产生变化。因此,设计 VLSI 电路级的差错检测和差错校正逻辑以防护存储器和逻辑电路是很有必要的。 传统的双模比较冗余( DMR )结构是一种从系统级到 VLSI 电路级得到广泛使用的自测试结构。从 1980 年以来,它被应用到了某些商用计算机中。例如, IBM 4341 处理机的所有关键控制线、 IBM S/390 CMOS 大型机的 G3 和 G4 的指令单元和执行单元等均使用了 DMR 结构。但是, DMR 结构的问题之一是它不具有故障屏蔽或恢复能力。 随着要求高可用性和高可维护性的应用需求的增长,重试结构因其硬件开销低而获得了广泛应用。在不同的控制流级别上,重试采用不同的形式。如进程级的程序重启动或校验点 - 卷回、指令级的单指令和多指令复执、微结构级的微卷回等。 当代 VLSI 电路提供了足够的片上资源。因此对于芯片系统( SoC )技术而言,将在线测试和重试机制集成进芯片是绝对必要的。一个理想的容错 VLSI 电路应该具有低的空间和时间开销、低延迟,但具有高的检错和纠错能力。因此,本文先提出了一个通用的在线测试和重试结构。显然,重试虽然能够屏蔽瞬时性故障或间歇性故障,但是它一般无法对付永久性故障。为了解决这一问题,本文又提出了一种新的使用互补逻辑 - 交替互补逻辑( CL-ACL )切换模式的 DMR 结构(文中称之为 CL-ACL 结构)。在无差错运行过程中, CL-ACL 结构按互补逻辑模式运行。当检测到一个差错后,它按交替逻辑模式重试。如果所有差错均属于由一个冗余模块而产生的单个或多重暂时性 0/1- 差错或固定型差错,那么这些差错将被有效地得到校正。因此,这种差错恢复结构可以提供连续的服务。通过模拟所获得的结果证实了 CL-ACL 结构的正确性。理论分析结果也表明 CL-ACL 结构的时间延迟大大小于使用交替互补逻辑模式工作的 DMR 结构。Abstract: Modern VLSI circuits provide adequate on-chip resources. So that online testing and retry integrated into a chip are absolutely necessary for system-on-a-chip technology. This paper firstly proposes a general online testing plus retrying structure. Obviously, although retry can mask transient or intermittent faults, it is useless for handling permanent faults generally. To solve this problem, this paper presents a novel dual modular redundancy (DMR) structure usingcomplementary logic---alternating-complementary logic (CL-ACL) switching mode. During error-free operation, the CL-ACL structure operates by complementary logic mode. After an error is detected, it retries by alternating logic mode. If all errors belong to single or multiple temporary 0/1-error or stuck-at-error produced by one module, then these errors can be corrected effectively. The results obtained from the simulation validate the correctness of the CL-ACL structure.Analytic results show that the delay of the CL-ACL structure is dramatically less than that of a DMR structure usingalternating-complementary logic mode.