作者:Anne Meixner
原文:https://semiengineering.com/hybrid-approach-emerges-for-edge-cloud-inspection-of-chips/
检测图像与计量测量数据呈爆炸式增长,给芯片制造商及其设备供应商带来了一系列复杂需求。一方面,他们需要云端的海量存储与计算资源,以运行基于人工智能(AI)/ 机器学习(ML)的模型;另一方面,为在工具层面实现调整,他们又需要边缘计算提供更快的响应速度。
平衡这些需求是一项艰巨且高成本的挑战。要实现这一点,不仅需要获取上下游数据,还依赖于成熟的机器学习模型。其核心目标是:仅将高质量数据传输至云端,借助机器学习算法高效处理海量数据;进而让决策模型能够提供高速检测与计量所需的精度和准确度。与此同时,这还要求在检测 / 计量设备层面、工厂层面及跨设施层面,加大对数据存储与计算资源的投入。
ML的应用进展:
从技术渗透到数据整合起步
过去几年,机器学习已逐步渗透至检测与计量领域,但云端与边缘端数据的整合才刚刚起步。实践证明,机器学习在多种半导体工艺中均能发挥效用,涵盖光学、电子束、X 射线、红外及声学检测,可用于多种衬底的计量与检测工作。
厂商实践:检测系统的 AI 赋能案例
KLA 公司发言人表示:“我们的检测系统能够捕捉并识别晶圆、掩模版、封装件、IC 衬底及 PCB 上的缺陷。这些检测设备借助 AI,从周围的图形与工艺噪声中区分出细微的缺陷信号,并能适配不断变化的检测需求。通过集成 AI,这些检测系统可提供对关键缺陷的详细洞察,帮助制造商加速研发进程、优化生产流程,并缩短创新电子设备的上市时间。”
Microtronic 总裁Reiner Fenske指出:“针对宏观缺陷的自动光学检测(AOI)技术,采用特定角度的同轴与离轴照明组合来捕捉各类缺陷。计算机处理能力的持续提升、用于提高套刻精度的精密硬件、机器学习技术及软件算法的不断改进,均对该技术的检测能力产生了显著影响。”
业内视角:云端与边缘计算的平衡逻辑
尽管基于 ML 的决策在检测环节完成,但边缘端计算算法实则由云端 ML 算法衍生而来。行业内对二者的平衡及混合方案的应用,形成了多维度共识:
Nordson Test & Inspection 先进技术解决方案产品工程高级总监 Charlie Zhu表示:“AI/ML 在检测领域的应用已从‘是否用’转向‘如何用’,云端与边缘计算存在明确权衡 —— 边缘端负责 100% 在线检测(响应更快),云端承担模型训练(需 GPU 算力),训练完成后推理所需算力大幅降低。”
yieldWerx 首席执行官 Aftkhar Aslam表示:“设备供应商需云端数据排查故障,IDM 需云端数据做跨制造关联分析,建议混合方案:将早期技术导入、NPI 阶段(数据重叠度高)及良率关联数据存储于云端,而非边缘端。”
普迪飞(PDF Solutions)技术产品管理总监 Steve Zamek表示:“不存在‘一刀切’的方案。采用具备企业级平台的混合架构,允许将模型部署至边缘端,这种方案或许能提供最优解。这些考量并非仅适用于 AI/ML 模型 —— 多年前,我们的许多客户就已采用类似方案部署基于规则的模型。然而,如今模型规模不断扩大,部分大型模型的训练必须依赖可扩展的集中式基础设施,即云端。”

表 1:不同部署方案的优缺点(绿色代表“良好”,黄色代表“可接受”,红色代表“较差”) 来源:PDF Solutions
云端层面:算力支撑、数据整合与模型开发
云端是处理复杂图像分析、开发 ML 模型及整合多源数据的核心载体,其价值体现在三大维度:
1、海量算力与模型开发优势
面对复杂图像分析任务,先进 ML 算法可显著提升缺陷检测能力。开发 ML 模型需数十万张相关图像,云端凭借高效 GPU 算力,成为处理海量数据、支撑模型训练的关键 —— 这是边缘端难以替代的核心优势。
2、数据整合趋势与质量要求
当前行业趋势是:将检测 / 计量数据与上下游数据结合,以发现细微缺陷。这一趋势推动更多计算向云端转移,也要求构建可整合多数据源的基础设施平台,而数据质量是确保分析有效性的前提。
3、厂商实践与成本优化
Onto Innovation产品营销总监 Woo Young Han指出:基于 ML 的检测依赖预训练缺陷模型,算法从多类训练图像提取特征,适配部分管芯与晶圆边缘检测;缺陷分类与检测同步进行,提升效率与准确性。
Nordson高级总监Charlie Zhu表示:客户采用 AI 的最大障碍是数据收集精力成本,通过提供 “通用模型”(如覆盖QFP、QFN 封装的PCB 元件模型),厂商承担数据训练工作,大幅降低客户应用门槛。

图 1:AOI PCB图像分割 (利用AI对图像中的特征进行分割/标记) 来源: Nordson Test & Inspection
模型的训练闭环与迭代:模型构建中,检测图像数据与电学测试数据结合已成标准做法。这些额外信息可为模型提供输入,帮助区分干扰性缺陷与影响性缺陷。模型部署到边缘端后,直接应用于检测环节,但需通过多工厂、多工具数据反馈至云端持续优化,再重新部署至现场工具,形成迭代闭环。
普迪飞(PDF Solutions)Steve Zamek表示:“以简单的图像分类任务为例,在模型训练过程中,我们可将电学测试作为判断缺陷是‘致命缺陷’还是‘干扰性缺陷’的‘基准依据’。要实现这一点,需从晶圆分选、封装级测试、老化测试等多个生产环节收集电学测试数据,且这些数据需覆盖不同生产站点;为便于后续调用与分析,数据最好集中存储在云端。此外,模型训练需海量图像支撑,以覆盖不同工艺技术、检测方法与设备、检测工艺参数等场景,而这类大规模数据处理需要可扩展的计算资源 —— 这也再次推动行业选择云端解决方案,以满足算力与存储需求。”
多源数据整合:跨环节关联与全局优化的基础
整合多源数据是突破 “单设备 / 单工厂数据局限”、实现全局优化的关键,其核心价值与实践路径如下:
数据整合的核心价值工程团队可通过多源数据开发先进 ML 模型,揭示上游设备参数与下游图像、电学测试数据的关联,快速识别异常并定位根本原因,提升跨环节问题解决效率。
实践应用与数据流程
普迪飞(PDF Solutions)Steve Zamek :晶圆厂与代工厂的在线计量和检测工作,面临一项关键挑战:设备端训练与部署的模型,受限于该设备可获取的数据类型,而这类数据本身存在显著局限性。我们始终在提供系统平台,可将所有生产运营环节、所有站点的数据整合至同一平台。同时,我们也观察到,越来越多的应用场景中,企业正通过构建并部署模型,实现计量数据与工艺控制监测(PCM)数据、在线检测数据与良率的关联分析。
Onto Innovation 总监 Melvin Lee Wei Heng表示:AI/ML 模型提升了数据可追溯性,工厂可关联前后端工序信息,在部件进入后端前部署预测模型,缩短响应时间、提高决策准确性,优化缺陷管理。

图 2:典型制造数据传输流程
(数据传输至云端,用于跨工厂构建模型)来源:PDF Solutions
边缘端层面:
实时决策、本地算力部署与产线保障
边缘端是确保产线连续性、实现实时决策的关键,其核心定位与实践围绕 “低延迟”和“本地算力” 展开:
1、边缘端的核心作用
模型在云端构建、在边缘端应用—— 若依赖云端决策,数据传输延迟可能导致产线停滞,边缘端可实现“检测 - 决策 - 调整” 的实时闭环,快速采取纠正措施,评估在制品(WIP)的影响。
2、实践应用
正如测试系统会在自动测试设备(ATE)旁增配计算盒一样,如今检测与计量设备供应商也会提供独立的本地 GPU 计算资源。
YieldWerx 的 Aslam 表示:需基于检测与计量数据快速决策,明确缺陷工艺步骤、返工需求及对 WIP 的影响;单纯依赖云端存在安全、延迟、访问障碍等问题,数据不可用会导致停产及高额成本损失。
Onto Innovation 总监 Melvin Lee Wei Heng:基于机器学习的检测需配独立 GPU,与传统检测技术并行运行,既能保障吞吐量不受影响,又能提升缺陷检测与分类能力。
KLA 公司发言人:AI 已将图像处理、数据提取的工作负载转移至 GPU,提升图像计算机效率与性能;这类 GPU 架构属边缘端系统,支持实时数据处理与 AI 算法应用,可缩短半导体制造商的结果获取时间、提高良率。
3、边缘端的 “兜底” 价值
单纯依赖云端存在安全、延迟、访问障碍等风险,边缘端可离线运行预部署模型,避免网络中断导致的批次与设备暂停,减少产线损失。
结论:AI/ML 落地检测领域的关键要素与良率优化方向
成功将 AI/ML 应用于检测领域,需满足三大核心条件,且其价值需通过全局优化实现:
核心条件:需云端与边缘端的协同算力;需积累海量图像数据(模型构建环节,云端至少需 10 万张,通常超 100 万张);需构建集中式数据湖,整合检测与其他设备数据以支撑可扩展云端算力访问。
良率优化逻辑:从 “缺陷与工艺环节的孤立优化”,转向 “相互关联因素构成的整体良率空间优化”,通过 AI/ML 识别复杂模式、结合场景分析,最大化全局良率。
明确价值:ML 已被验证可积极提升制造工厂的良率与质量,是工艺复杂度提升、数据量激增背景下的核心技术支撑。
全部0条评论
快来发表一下你的评论吧 !