SLM片内监控IP数据分析显著减少测试成本

新思科技 2024-07-16 1741

描述

SLM片内监控IP数据分析为高价值应用提供了更为自动化的数据分析手法。

一直以来，片内监控IP是为开发者提供量测芯片内部工作状态，评估产品功耗等关键性能指标的核心技术方案。片内监控IP（例如常见的ring oscillator）采集的数据有助于在芯片制造阶段（即芯片放入最终设备之前）了解和判断芯片是否满足必要的功耗或性能要求。然而，这个过程中的挑战在于：即便能在制造测试不同阶段期间收集所有数据，但数据分析方法仍大量依赖于手动操作，而且需要经验丰富的产品开发者运用专业知识来预处理和解释数据分析结果。

如今，芯片生命周期管理（Silicon Lifecycle Management ）解决方案的生产和监控分析方案取得了长足进步，大大提高了分析过程的自动化程度，帮助用户进一步自动化识别产品功耗和性能等关键问题，大大提升了开发效率。此外，片内监控IP数据分析还首次实现了对Vmin优化等关键应用的自动化处理。将嵌入式监控IP的数据与前沿机器学习算法相结合，有助于确定更低、更优的Vmin值，从而降低器件功耗并延长现场使用寿命，并显著减少测试成本。

SLM片内监控IP

如图1所示，在完成产品设计和流片后，可能会遇到这样的问题：实际芯片的运行速度比规格值慢，设计中的某些IP不起作用（例如，4核器件设计的其中2个内核不起作用），或者芯片已完全失效。

机器学习

▲ 图 1：首次流片中遇到的典型问题

此时，产品良率负责人或产品开发者需要准确了解芯片内部发生的情况，尝试找出这些问题的根本原因并加以调试。这通常要用到嵌入式SLM片内监控IP。另外，工艺、电压和温度（PVT）传感器也可以为根本原因分析提供关键信息。

虽然PVT IP用途很广，但在目前的先进SoC中，用于测量芯片功耗和性能的工艺检测IP正日益发挥关键价值。电压传感IP的分析数据有助于检测芯片的具体压降状况，并直接与测试仪上特定的测试失败情况相关联。与此类似，温度传感IP的分析数据可以揭示芯片内部的温度梯度（例如芯片某区域存在过热问题），并直接对应到测试仪上的特定测试失效结果，进而协助找出失效的根本原因。

相对来说工艺检测IP主要用于测量芯片的工艺健康状况，属于hard IP，是专为特定代工厂的各个工艺节点而设计的。此类器件中包含由各种反相器、NAND或NOR标准单元构成的环形振荡器链（ring oscillator），在设计中通常用于组成简单、独立且同构的逻辑集群。例如，采用反相器标准单元的环形振荡器由奇数个反相器组成，每个反相器的输出端都连接到下一个反相器的输入端，而最后一个单元的输出端则连接至第一个单元的输入端，从而形成闭环。正如其名，器件导通时，这些RO链将会自限性地快速振荡。在正常情况下，RO链将以尽可能高的频率运行；而一旦芯片出现异常或失效，其振荡频率会显著降低。

从这些监控IP获得的数据通常需经过手动分析并绘制成图表，以便与代工厂的流片前时序模型进行比较。在极端情况下，可能会遇到保持时间违例等时序相关问题，例如实际芯片比时序模型快，或者芯片的运行速度达不到设计性能要求。在这两种情况下，都可以通过SLM片内传感IP数据分析方案来进一步找出根本原因，并识别导致这些时序问题的具体cell。此外，如果性能表现在正常范围内，但设计的裕量过大，则可以在确保仍满足性能要求的前提下，通过选择速度较慢的cell来进一步降低功耗。

Path Margin Monitor是一种新型嵌入式监控IP，目前也正广泛采用。这些监控IP会在产品制造测试期间，测量特定功能逻辑路径的裕量，以此来提高芯片特征测量结果的质量。不过，与作为hard IP且放置在芯片裸片外围的工艺检测IP不同，PMM属于soft IP，可以独立于工艺节点合成到设计中，并放置在任何逻辑路径旁。通过定期测量路径的裕度，PMM使开发者能够评估器件在使用寿命内的老化情况。器件的裕度可能会随器件老化而降低。而PMM的数据可以提示是否需要调整器件的频率或工作电压，从而能够延长器件的使用寿命，此外还有助于开发者在器件发生故障之前识别并召回所有即将出现故障的器件。

SLM片内监控分析的兴起

分析来自片内监控IP的数据一直都需要手动操作，非常耗时费力。这个过程通常涉及收集和存储大量数据，然后还要从数据库中下载数据。继而，开发者必须花费数小时手动分类，定义合并和堆叠数据集以生成一些图表。期间还需要自行评估并确定是否存在要采取纠正措施的问题。这是一个繁琐而缓慢的过程，必须周而复始地进行。在芯片的生命周期中，从早期新产品导入（NPI）阶段到大批量制造（HVM）期间的维护状态下，都必须执行这个过程，以此观察芯片随时间推移的运行情况。因此，SLM In-Chip Monitor Analytics的目标是自动执行这一繁琐分析过程，让开发者可以一键获得可行的信息，从而将相关耗时从数小时缩短至几分钟。

为实现这个自动化目标，需要将以下几个要素整合到同一个分析解决方案中：

来自监控IP的数据

来自这些监控器的设计元数据，例如物理特征 - 2/3/4鳍片变体、SVT/LVT/ULVT Vt或阈值电压样式

仿真元数据，例如FF/TT/SS/FS/SF corner 条件

测试元数据，例如测试芯片时的电压、频率和温度

下方图2为自动化目标差距分析的结果。这是一个标准漏斗图，描绘了所有生产的芯片中，具有相同物理特性的RO链在不同电压下的测试结果，并与foundry的仿真设计目标进行了比较。实际上，就是获取测试仪的测量结果并将其除以TT（Typical, Typical）目标值，其中TT代表典型PMOS和典型NMOS仿真时序结果。此外，为了完善漏斗图的边界，图中还加入了FF（Fast, Fast）目标值和SS（Slow, Slow）目标值，并将它们同样除以TT目标值，以确定在漏斗图中的相对位置。

机器学习

▲ 图 2：单个环形振荡器链在三（3）种不同电压下测试的漏斗图

理想情况下，如果没有异样或偏差，所有经测试的芯片性能都应该位于青色的TT线上。但在本例中，测试期间提高电压时，有一半芯片的运行速度要比FF目标值快，这表示存在扫描链hold timing violation。因此，如果这些器件发生扫描链失效，可以借助此监控分析来找出问题的根本原因。

如下方图3所示，监控分析已扩展到包含3条具有独特物理特征的RO链。它们的鳍片数量、栅极类型以及负载电容均相同，但Vt（例如阈值电压）不同。对于其各自的不同Vt，测试中分别标记为VT1、VT2和VT3。

机器学习

▲ 图 3：Vt不同的3个独特RO链的箱线图

结果显示，在较高电压下，RO链间的偏差较大，其中VT2大致达到目标，而VT3低于目标。此类偏差预示着潜在的时序故障。

监控分析解决方案可以提供更多分析信息，以便进行详尽的实验设计（DOE），了解各种物理晶体管特征会如何影响多个RO链中的性能，从而确定DOE的哪个部分对与TT目标值的差距影响最大。

例如，下方图4显示了一个多变量DOE，可以独立执行一系列详尽的物理实验，确认图3中所示的研究结果，即在统计上，VT3与目标的差距明显比VT2要大。此外，所有实验的相关性表明，Vt类型对该差距的影响要比鳍片、栅极类型等更大。

图4中还包含了一个回归树。回归树是一种统计方法，可以通过分类变量来分解连续变量。本例中，分类变量为RO DOE，即构成RO的所有物理特征；连续变量为与目标的差距。对整个芯片总体进行实验排列之后，回归树可以指示在其中哪个分类变量（例如物理属性）对连续变量的影响最大。在本例中，Vt类型是导致目标差距最大的相关因素。对于某条关键路径，如果怀疑存在负裕量问题或遇到了芯片故障，且认为这些问题是由VT3引起的，则可以考虑将VT3单元更换为VT2单元，因为VT2的性能更具可预测性。

机器学习

▲ 图 4：确定哪些物理特征对与TT目标值的差距影响最大的多变量DOE

使用监控分析解决方案对芯片进行工艺分类以实现自动化的例子还有很多，图5为一个典型分析工具输出模板，用户可以从中选择和查看多种不同的分析输出报告。

机器学习

▲ 图 5：由Silicon.da Monitor Analytics执行的工艺分类分析报告。

不过，工艺分类只是监控分析的主要用例之一。其他用例还有许多，例如Vmin预测。

Vmin预测

Vmin预测具有诸多优势，目前也正日益普及。首先，确定器件在满足性能要求情况下的最低运行电压对于提升器件能效有着重大影响。运行电压越低，器件消耗的电量就越少。这主要体现在两个方面：（1）提高器件/设备（例如手机）的性能；（2）最终延长器件/设备的使用寿命。不过，尽管这非常重要，但每个器件的最低工作电压各不相同，这并不容易实现。要想获得每个器件的真实Vmin，就必须大量进行制造测试，这不仅耗费大量时间，影响产品上市进程，还会增加测试成本。如果有一种方法可以精确预测真实的Vmin，且无需大量投入时间和成本，无疑将为产品开发者创造巨大价值。

尽管多年来开发者们一直在尝试预测Vmin，但并不是所有的方法都能取得理想效果。为了塑造准确的Vmin预测模型，需要以下几个关键要素：（1）稳健的机器学习（ML）模型；（2）实际测量并收集器件样本的Vmin，以协助训练模型；（3）来自监控IP的数据（例如前面讨论过的PVT和PMM），以提供器件的更多特征，从而提高模型的准确度。

下方图6显示了两种不同Vmin预测模型的准确度差异。预测模型越好，测量值与预测值之间的相关性就越紧密（右侧图表）。理想情况是模型可以准确预测要测量对象的Vmin。

机器学习

▲ 图 6：准确度不同的两个Vmin预测模型

图中，x=y线下方表示预测的Vmin与该器件的Vmin测量值相同或较之更高，因此线下方的器件均符合要求。而线上方则表示预测值小于测量值，相关器件不符合要求。为了确保器件良率足够高，同时考虑补偿器件老化影响，考虑在Vmin预测值的基础上增加一个小幅度电压（guard band）。不过，在补偿电压之前，如果大多数器件已符合要求，则可能不需要额外的guard band。在这种情况下，可以将预测的Vmin作为测试起点，进一步展开Vmin测试，寻找更优Vmin。

要将Vmin预测模型投入实际应用，可参考图7在生产中建立该模型的相关规程。

机器学习

▲ 图 7：Vmin预测的相关规程

其中第一步是在预先确定的一组器件上创建和训练ML模型。这一步需实际测量Vmin，收集的Vmin测量数据是训练模型的关键要素。

第二步是将下一批新芯片在晶圆分类过程中收集的生产数据应用于该模型。请注意，此时不再需要实际执行Vmin测试，因为ML模型将能预测在FT和/或SLT期间要使用的Vmin值。预测的Vmin将离线存储在数据库中，以供FT或SLT测试期间使用。

第三步（也是最后一步）为在FT或SLT测试期间利用预测的Vmin。测试开发者可以将该预测值作为最终产品的Vmin；如需改进结果，可以将Vmin 预测值用作进一步测量Vmin测试的起点。开发者可以将此值作为起点，对测量的Vmin进一步展开测试。利用预测值作为起始点，从而显著减少测试时间。

为综上所言，为了在整个生命周期内监控和维护器件的健康状况，并改善功耗和性能等关键运行指标，开发者需要了解复杂SoC中的实际运行情况。不然就像无头苍蝇，只能通过耗费大量的开发和测试成本才能加以改进。新思SLM Analytics的片内监控IP数据分析方案另辟蹊径为广大开发者提供了直观呈现监控数据和自动生成数据分析的技术思路，从而更高效地实现这些关键KPI。

打开APP阅读更多精彩内容