在运行时检测SRAM故障的挑战

描述

  作者:Henrik Nyholm,Jacob Lunn Lassen

  在设计安全关键系统时,国际安全标准对我们选择适当的流程和适当的技术来检测和避免最终产品中的危险故障至关重要。这些标准确保我们不会像我们之前的安全工程师一样陷入同样的困境。

  然而,这些标准的危险在于,它们假设你对底层硬件(比如微控制器)有详细的了解,这可能会导致经验不足的安全工程师实施不安全的设计。例如,IEC(国际电工委员会)60730标准建议使用棋盘式存储器测试来检测B类软件可变存储器中的直流故障,这比看起来更具挑战性。

  本文介绍了SRAM的逻辑和物理布局之间未记录的差异如何导致我们无意中错误地实现内存测试,例如棋盘算法。标准微控制器的数据表中通常没有必要的信息,但幸运的是,有些内存测试算法不受SRAM逻辑和物理布局差异的影响。

  在运行时测试 SRAM 是否存在缺陷

  SRAM存储器显然由IC供应商在生产中进行测试,并且有缺陷的产品不会运送给消费者。尽管如此,随机的硬件缺陷在IC的使用寿命期间可能会并且将会出现,这是在安全关键应用中需要在运行时在微控制器中测试硬件的原因之一。

  棋盘记忆测试

  IEC 60730 (H.2.19.6.1) 等安全标准表明,对于必须符合 B 类安全级别的应用,可以使用棋盘算法来识别 SRAM 中的某些缺陷(直流故障)。通常选择棋盘测试,因为它涵盖了SRAM中最可能的故障,并且相对较快,这便于最大限度地减少对应用本身的性能影响。除了直流故障(位永久卡在高处或低位)之外,棋盘算法还可以检测相邻位相互影响的缺陷。

  SRAM在逻辑上由以单词组织的许多位组成。这些字通常为 8 位、16 位或 32 位宽,但也可能更长。在物理上,这些位被组织在数组中,其中每个位通常有八个相邻位(参见图1)。位中的物理缺陷会影响单个位,使其卡在高处或低位(直流故障),或者缺陷可能处于两个位的分离中,在这种情况下,相邻的侵略者单元(在图1中标记为紫色)可能会影响受害单元(在图1中标记为黄色)。攻击者-受害者的情况通常被称为耦合故障。从统计学上看,直流故障更容易发生,但检测最可能的耦合故障仍然相关。

  

sram

  图1 - 相邻位之间的潜在耦合故障。

  如果故障影响单个位,使该位卡在高位或低位,则可以通过写入值 1,通过回读来验证值 1,然后写入值 0 并通过回读来验证零,如图 1 所示。另一方面,如果缺陷是两个相邻位之间的耦合故障,例如第2行中的位列9和10,则某些模式(例如所有1或全部0)不会显示耦合故障,因为单元格在测试期间具有相同的值。

  诸如相邻单元(侧面,上方和下方)之类的耦合故障具有相反的二进制值。图 1(右下角)说明了位 10 中的位污染了位 9,并且由于位 9 不保持预期值 0,因此揭示了耦合故障。

  SRAM 的物理与逻辑布局

  要使棋盘算法正常工作,需要知道哪些位是相邻位。事实证明,这是一个问题,因为数据手册通常只描述SRAM的逻辑布局,而不是SRAM的物理组织方式。

  要了解SRAM的物理布局,必须区分面向位的存储器(BOM)和面向字的存储器(WOM),前者当时可以访问一个位,后者在当时读取和写入n位字。虽然大多数现实世界的内存都是以口碑形式实现的,但科学文献中的经典内存测试算法通常采用BOM实现。

  对于口碑存储器,构成单词的位的物理组织有三个主要类别:相邻、交错和子数组。逻辑布局将每个单词放在同一列中前一个单词的下面(类似地址空格),但相邻的记忆将每个单词放在同一行中,如图 2 所示。交错架构将单词的每个位分隔到SRAM阵列的不同列和行中。最后,子阵列组织将单词的每个位放在SRAM的不同物理上独立的块中。现实情况是,您不知道正确实施棋盘测试所需的物理布局。

  

sram

  图 2 - 面向单词的记忆的物理布局示例。

  棋盘测试的性能和缺点

  实现棋盘算法的简单方法是交替地将值0xAA(假设是8位数据字)写入第一个地址,并在下一个地址中0x55,直到所有被测地址都用1和0的棋盘模式填充。然后验证该模式以检测相邻单元之间的任何直流或耦合故障。然后使用反向模式重复该过程。如前所述,有一个问题:内存逻辑布局中的棋盘模式可能不是底层物理布局中的棋盘模式,如图 3 所示。

  

sram

  图3 - 逻辑与物理SRAM的数据模式。

  补偿逻辑和物理布局之间的差异似乎是显而易见的,但在器件的数据表中很少提供必要的信息。那么,你该怎么办?接受较低的覆盖范围,毕竟诊断仍然会覆盖直流故障和相邻位之间的一些耦合故障吗?向IC供应商请求布局,并为每个器件定制棋盘测试的实现?或者选择其他算法?

  既然您已经意识到棋盘测试的潜在缺点,您可以做出明智的决定。

  用于 SRAM 运行时测试的替代算法

  IEC 60730中针对C类安全级别提出的存储器测试技术具有更高的故障检测覆盖率,但这些算法属于可以被认为是生产测试算法的算法:它们需要更长的时间来运行,也可以检测更罕见的故障类型,但通常会破坏存储在SRAM中的数据,因为它们在整个SRAM上运行,而不是在子块中运行。

  一般来说,对于我们的嵌入式设计,我们不能很好地容忍这一点。因此,我们建议您考虑从生产测试 March 算法改编的混合 March 算法:这些算法可用于 WOM 优化实现,并提供高测试覆盖率。此外,可以实现这些混合 March 算法,使其在 SRAM 的较小重叠部分上运行,以避免一次擦除 SRAM 中的所有数据,这意味着可以避免嵌入式系统的重新启动。March算法的缺点是它们比传统的棋盘算法计算量更大,但这是安全关键系统可能需要的费用。

  如果您考虑将传统的棋盘测试与March测试交换,则可以从一些微控制器供应商处找到此类实现。Microchip是提供March C-算法的性能优化实现的公司之一,作为其软件诊断库的一部分。Microchip实现支持整个SRAM的测试,通常在启动时完成,以获得最大的测试覆盖率,以及更小的内存块的测试,旨在减少对应用的实时影响。

  审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分