微观世界的“体检”难题
在一枚比指甲盖还小的芯片中,集成了数十亿甚至上百亿个晶体管,例如 NVIDIA 的 H100 GPU 包含 800 亿个晶体管。要如何确定每一个晶体管都在正常工作?这是一个超乎想象的复杂工程。如果让人类拿着显微镜一个接一个地检查,测试一颗芯片可能需要数百年。然而在现代工厂中,这必须在几秒钟内完成。这就是可测性设计(DFT, Design for Testability)的用武之地。
一聊起年轻时研发过ATE,很多人就会问我半导体测试究竟是如何进行的?索性回忆回忆写点东西。本文将带你走完一颗芯片从晶圆厂诞生到被认证为“良品”的全过程,揭示这一支撑整个数字世界的幕后技术。
测试的核心逻辑非常简单:施加一个特定的输入,验证是否出现了预期的输出。但在现代半导体中,这个问题变得极其棘手。因为芯片外部可供连接的引脚(Pin)通常只有几百到几千个,而内部却有数十亿个晶体管。我们无法直接从外部“看到”内部每一个晶体管的状态。
打个比方:这就像医生给人看病。当身体不舒服时,你怎么知道是胃、肠还是胆囊出了问题?医生不能直接把肚子剖开看,而是通过内窥镜深入体内,或者注射显影剂观察反应。
芯片测试也是如此。我们在设计芯片时,就必须预埋特殊的电路结构,让内部状态变得“可见”且“可控”。这就是 DFT 的起点。
DFT(Design for Test)意为“为测试而设计”。如果不预先设计这些电路,芯片造出来后就是个“黑盒”,根本无法测试。
这是 DFT 最基础的技术。工程师将芯片内部的触发器(Flip-flops)连接成一条长长的“扫描链”(Scan Chain)。
通过这种方式,原本深埋在芯片内部、无法触及的逻辑门,就变得可以通过外部引脚进行控制和观测了。
有了扫描链,我们需要决定输入什么数据才能发现故障。这就需要 ATPG (Automatic Test Pattern Generation) 工具。它基于“故障模型(Fault Model)”自动生成测试向量。常见的故障模型:
为了降低成本,现代芯片采用了扫描压缩技术。核心思想是用极少的外部测试引脚,驱动内部成百上千条扫描链并行工作。这能将测试时间压缩数十倍,直接决定了芯片的生产成本。
任何关于芯片测试的讨论都离不开 ATE (Automatic Test Equipment,自动测试设备)。这些由 Teradyne(泰瑞达) 和 Advantest(爱德万) 等巨头制造的机器,单台造价从数十万到数百万美元不等。ATE 在做什么?表面上看,ATE 只是负责供电、给信号、读结果。但实际上它是一台超高精度的物理仪器:
在工厂里,时间就是金钱。哪怕每颗芯片减少 1 秒的测试时间,对于产量上亿的芯片来说也是巨额的利润。因此,工程师的主要目标之一就是缩短测试时间。最有效的手段是“同测”——用一台 ATE 同时测试 4、8、16 甚至 32 颗芯片。这虽然让测试程序极其复杂,但能显著摊薄昂贵的机台成本。
芯片测试并非一次性完成,而是分阶段进行的“闯关游戏”。
时间点: 晶圆刚出厂,还没被切割。目的: “排雷”。 尽早剔除坏品。因为后续的封装(Packaging)成本很高,把坏的芯片封装起来是纯粹的浪费。在这个阶段,探针卡扎在晶圆上进行测试。CP 测试通常无法做到全速或高温测试,它更像是一个初筛,把明显的坏品打上标记(Ink out),不让它们进入下一环节。
时间点: 芯片切割并封装完成后。目的: “终审”。这是最关键的一步。芯片被放入插座(Socket)中,环境更加稳定。
时间点: FT 之后,出货之前。目的: “实战演习”。随着制程越来越先进(如 5nm, 3nm),芯片内部变得极其复杂,有些缺陷只有在跑真实操作系统或应用时才会暴露。SLT 就是把芯片插在一个类似手机或电脑主板的测试板上,真的去启动 Android/Windows,跑 3DMark 或特定的业务负载。这是为了拦截那些“ATE 测不出来,但用户一用就死机”的隐蔽缺陷。
在量产中,测试流程遵循两条铁律:
典型测试流程:
并不是所有通过测试的芯片都是一样的。这就涉及到了 Binning(分级)。
决定了机械臂把芯片放到哪个盘子里。
良率 = (良品数量 / 总芯片数量) × 100%在半导体行业,良率就是一切。对于月产数万片晶圆的工厂,98% 和 99% 的良率差异,可能意味着每年数亿美元的利润差距。
良率通常遵循泊松分布模型:其中 D_0 是缺陷密度,A 是芯片面积。这个公式告诉我们一个残酷的事实:芯片做得越大,良率就越难控制。 这就是为什么现在的 AI 芯片(面积巨大)卖得那么贵,以及为什么行业要转向 Chiplet(小芯片)技术——把大芯片切碎了做,能显著提高良率。
测试工程师面临永恒的困境:
优秀的测试策略,就是在这两者之间寻找最佳的平衡点。
补充知识JTAG 标准在 DFT 领域,你常会听到 JTAG (IEEE 1149.1)。这是一个行业标准接口,最初就是为了解决电路板级测试难题而发明的。它定义了 TAP 控制器和边界扫描技术,是实现上述 DFT 功能的物理基础之一。
Load Board 与 Probe CardATE 是通用设备,如何连接特定的芯片?
KGD (Known Good Die)在 Chiplet 和 2.5D/3D 封装(如台积电 CoWoS)流行的今天,CP 测试的重要性被拔高了。因为一个封装里可能封装了 4 颗 HBM 显存和 1 颗 GPU 核心,只要其中一颗 Die 是坏的,整个昂贵的封装就报废了。因此,厂商需要 KGD——在晶圆阶段就必须 100% 确信这颗 Die 是好的。
半导体测试不仅仅是“找坏人”,它是芯片制造中定义质量、决定成本、划分等级的关键环节。当你下一次看到新闻中提到某款芯片“良率突破”或“频率提升”,请记住,这背后不仅是制造工艺的进步,更是无数测试工程师通过海量数据分析、精密电路设计和严苛筛选策略所构建的质量长城。是他们决定了一颗沙子提炼出的硅片,究竟是以几百美元的价格驱动超级计算机,还是作为废料被丢弃。
声明:
全部0条评论
快来发表一下你的评论吧 !