争夺芯片业务不断缩小的物理冗余

EDA/IC设计

1065人已加入

描述

不断增加的密度和复杂性使得从设计到制造再到现场捕获和集成更多数据变得势在必行。

更小的工艺节点,加上不断寻求在设计中添加更多功能,迫使芯片制造商和系统公司选择那些仍能从不断缩小的技术冗余中获取一份的设计与制造团队。

过去,冗余主要在代工厂和设计团队之间分配,前者采用高度限制性的设计规则(RDR)以补偿新工艺技术的不确定性,后者在设计中加入额外的电路来确保可靠性。RDR为晶圆厂的各种工艺增加了冗余,使晶圆厂能够缓冲从畸形特征到工艺变化的一切——新工艺总是比成熟工艺更容易出现问题。对于设计团队来说,额外的电路可以在现场出现问题时提供故障转移。

但从finFET节点开始,仅仅在设计中增加冗余不再是一种选择。晶体管密度的增加和更细的连线,使得总系统冗余(代工厂和设计团队共同构建到芯片中的总和)开始影响性能和功耗。简而言之,信号通过细线和额外的电路传输更远的距离需要更多的能量,这降低了性能。因此,代工厂开始与EDA公司更密切地合作,通过更好的工具来减少保护带,尤其是越来越多地通过应用AI/ML和更详细的模拟,以及将这些工具与新工艺技术更紧密地集成。

其结果是,不同的团队争相游说,争取从设计到制造流程中所能获得的任何冗余。该冗余可以对冲异构集成的不确定性,也可以缓冲各种类型的噪声,以及晶体管密度增加引起的物理效应。它还改变了测试、计量和检查的插入点,特别是对于安全和关键任务设计,并将测试从制造扩展到现场,当数据路径因老化或潜在缺陷而退化时,冗余可用于重新路由信号。在某些情况下,这也促使芯片制造商在硅中得到充分验证的技术或由于其固有冗余而更具弹性的技术与最新、最先进的技术之间做出选择。

“人们正在寻找可变性宽容的设计,以使自己免受冗余问题的影响,”PDF Solutions总裁兼首席执行官John Kibarian表示。“某些架构适合于此。因此,任何类似数组或本质上并行的元素——比特币挖矿芯片、GPU、TensorFlow芯片或任何其他IPU(智能处理单元)——相对于CPU或单个处理元素来说,往往是容变的。这些已经占据了大部分工作负载,而工作负载现在正在转向本质上更具可变性感知的东西上。这使你免受晶圆厂的可变性的影响。但可变性最低的晶圆厂仍然积累了最多的市场份额,因为你使用的技术可变性越小,你的产品可变性就越小,你也会因此获得报酬。”

冗余的减少也使改进现有制造流程变得更加重要,其中一项关键工作是将一个或多个步骤的数据与晶圆厂中的其他步骤集成在一起。

“数据集成是其中的关键部分,”Tignis总裁兼首席执行官Jon Herlocker说。“晶圆厂内部有很多数据孤岛,特别是在前端和后端之间,因为很多可靠性和测试都是在后端进行的,而且很多时候数据孤岛并没有连接到前端数据孤岛。我们在数据孤岛方面看到的另一个有趣的问题是,先进的封装正变得非常重要。与前端相比,包装方面存在的技术和数据基础设施是低技术含量的——但是拥有这种低技术基础设施的同一组人正在开始做一些高科技的东西。所以现在他们问自己,'我们要不要把我们的后端技术提升到可以处理我们现在面临的复杂性的程度?’”

芯片设计和制造的每道工序都需要收紧,以弥补冗余的萎缩。这包括制造和测试、计量和检测等明显的领域。

“如果你看看采用目前先进的扇出型封装的覆铜层压板,会发现它可能有多达20层的RDL。” OntoInnovation光刻产品营销总监Keith Best说。“你必须确保这些登记是准确的。但是,当然,人们总是试图获得更好的[计量和检测]分辨率性能。随着分辨率越来越高,覆盖层也越来越紧,然后你就会担心基材是否稳定。使用覆铜层压板,当你固化这些层时,可以改变基板的形状。随着它在许多层上发生变化,开口变得越来越难满足,最终你会损失产量。”

这为制造中使用的新材料创造了机会,包括玻璃、不同的牺牲材料和永久粘合材料。但是,由于对材料与其他工艺相结合时的表现的准确理解存在差距,因此也需要留出余量。

我们的材料在客户流程中的确切表现。”Brewer Science首席技术官Rama Puligadda说:“如果我们能够获得加工条件,我们就可以模拟我们的材料在这些过程中的表现或性能。这将有助于我们预测故障并缩短反馈循环。”

更糟糕的是,今天使用的材料——就像许多制造工艺一样——与五年前大不相同。

“今天用于包装的材料在性能、稳定性、质量、环境兼容性和清洁度方面都有更高的标准。”Puligadda说:“展望未来,将需要不含PFAS和PFOS的材料,并且需要更高的清洁度来支持混合键合等工艺。包装材料将转向前端质量要求。”

 设计工具更好,但数据更加孤立

在设计方面,分配冗余一直是一个挑战,但在针对特定领域的异构设计中,这变得越来越困难。这种异构性使芯片制造商尝试不同的选择,并出于竞争原因启用工程变更单。但现在冗余非常微小,需要提前做更多的工作,这就是为什么设计技术协同优化和系统技术协同优化最近受到如此多的关注。决策需要在流程的早期做出,因为物理冗余影响着从随机指标到原子层过程的一切。

Arm前首席执行官、多家公司董事会成员西蒙•西格斯表示:“冗余一直在增加,且这是建立在长期以来不断积累的冗余上。”“ML在设计中的一些应用是一个机会,可以跨越更大的界限进行优化,挤出一些冗余,并以稍微不同的方式理解故障机制。”

这就形成了一个争论点,因为虽然设计团队总是想要更多的冗余,但这存在物理限制。至少在设计的前沿,更少的冗余等同于更好的性能和功耗,但它也需要重新思考各种流程和方法。冗余需要放在在整个系统的背景下考虑,而不仅仅是单个区块或流程。

“人人都想减少冗余,”Movellus总裁兼首席执行官Mo Faisal说:“当你看到300瓦及以上的处理器时,你真的找不到封装。也许只需要减少几瓦,它就会从不可能变成可能。做到这一点的方法就是减少冗余。但还有哪里能超冗余呢,因为每一处超额都会增加Vmin,从而将电压功率降低V²。所以这一切都会反馈回来。V与时间有关,所以有必要挤出每一点可能的冗余,而这一切都归结于时间。但它需要一个系统视角,而不仅仅只看一个区块。”

同时还需要了解该冗余如何影响实际用例中的整体性能和功耗。

proteanTecs测试与分析副总裁AlexBurlak表示:“为了确保芯片在现场运行时具有正确的性能保护带,并且准确的分箱,仅靠time-zero ATPG和基于memory BiST的决策已经不够了。”“你需要通过连接到设计中实际逻辑路径的代理来监控实际的时序冗余,而不仅仅是通过/失败测试。此外,在芯片执行任务时,通过使用冗余代理,客户可以获得高达14%的功耗降低。这是通过在监视器下测量端点触发器的实际时序冗余来实现的。如果它大于定义的阈值,则意味着你可以安全地降低电压,但仍能满足性能要求。没有这种可见性,就无法知道你在任务中离失败有多远。通过检测接近故障的时序冗余,实现实际逻辑路径的时序冗余可见性,对于防止操作期间的静默数据损坏也至关重要,这可能是由于不同的原因而发生的,如果适用,可以本质上延长芯片的使用寿命。

存储器

图1:跟踪设计中冗余的影响。来源:proteanTecs

加上3D-IC后,挑战变得更加复杂。“这是个可怕的部分,也是人们犹豫不决的原因,”Synopsys数字设计高级营销总监Shekhar Kapoor说:“方法和工具都在那里,我们实际上可以立即帮你划分设计。我们可以纯粹从连接性的角度告诉你什么是最好的分区。你可以把所有的宏放在一个骰子里,可以在这里有逻辑,那里有一个内存,这可能会满足你的高性能目标。但这是最佳方法吗?你看过所有其他的东西了吗?你对它的热力部分做了什么?你有热冗余和功率冗余,你必须把它们加在一起。但我们以前有20个不同角。现在一个典型的单片设计大约有200个定时角。所以你必须考虑所有这些最坏情况的组合,所有这些都有一个巨大的乘法因子。这仅仅是为了计时。你还有热问题,老化问题,电力问题。如何扩展时序签核,不只是点对点,触发器对触发器,还要考虑到功率和热的影响。如果你能做到这一点,那么至少你是在一个地方处理冗余。”

存储器

图2:使用路径冗余监视器优化Vmin。来源:Synopsys

Segar表示同意:“你可以担心设计中'这个块'或'这个IP'的冗余。对于堆叠芯片或不同基板上的多个芯片,特别是如果它们来自不同的代工厂,每个人都会建立安全冗余。但如果你继续这样做,最终不会有任何结果。这可能会导致表征构建模块的不同方法。”

这也增加了对电源完整性分析的需求,这在十年前通常被认为是不重要的。“现在,由于电压冗余变得如此之低,它已成为一种一级签核工具,”Ansys市场营销总监Marc Swinnen说道。“降低功率的最佳方法是降低电压,因此出现了超低压工艺。但这意味着你会面对没有电压下降余量的副作用。你已经把电压压得很低,以至于真的不能在路径上损失任何电压,所以它们对电压下降变得非常非常敏感,EM/IR成为了一级签核工具。如果增加压降冗余,则最大频率会降低,因为现在你必须设计更低的电压。所以你不仅没有多少冗余,而且你创造的任何冗余都会直接影响到其性能表现。

这意味着除非万不得已,否则你真的不想加上这个冗余。尽管如此,人们已经看到芯片的Fmax比最初模拟的低10%左右,并且他们无法完全获得应有的频率。最常见的原因是动态压降。在压降分析中存在逃逸,他们没有看到在实际芯片中会导致影响时序的局部压降。由于他们没有预料到的电压下降情况,他们看到频率神秘地下降了10%,这可能是由于动态电压降,它已经完全取代了传统的静态电压降。挑战在于确定哪些开关组合是现实的,哪些会导致最坏的压降,以及如何减轻或解决这些问题。但是,在整个芯片上布满冗余来反击的想法是行不通的。这已经成为一个非常困难的问题,你需要更智能的技术来识别实际的开关。

此外,基于保护带不再是一种选择这个事实,冗余可能决定哪种工艺(或者在先进封装的情况下,哪种工艺)最适合特定设计。“高级节点还不成熟,”Movellus的Faisal说。“电线中有更多的变化,更多的电阻,你需要提高电压来弥补它们造成的代价。栅极的电压可以降到0.6伏,但即使是3纳米,也必须保持在0.75伏左右。这些都是冗余。”

 结论

如何分配冗余以及分配给哪些群体,正成为一个重大挑战。它不再局限于一个流程或流程的一部分。相反,冗余需要在系统的背景下考虑,有时甚至是系统的系统,并且需要将其视为跨越多个组的总数。

总之,目标是要提高可靠性,冗余会影响处理元件、存储器、芯片架构的选择,并最终影响信号的完整性和系统的弹性。它是每个设备的核心,即使它对于设计到制造链的不同部分并不总是显而易见的。如今,芯片行业正在努力应对冗余减少的影响,以及如何弥补宝贵捷径的丧失。






审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分