剖析凡尔赛里的3nm/2nm竞争

旺材芯片 2021-05-25 2533

描述

几家芯片制造商和无晶圆厂设计公司正在相互竞争，以在3nm和2nm的下一个逻辑节点开发工艺和芯片，但是将这些技术投入批量生产证明既昂贵又困难。

它也开始引起人们对这些新节点的需要速度以及原因的疑问。迁移到下一个节点确实可以提高性能并减少功耗和面积（PPA），但它不再是实现这些改进的唯一方法。实际上，与将数据在整个系统中的移动最小化相比，收缩功能对PPA的好处可能较小。

由于器件是为特定应用而设计的，因此需要考虑许多因素和选择，例如不同类型的先进封装，更紧密的硬件和软件集成以及混合处理不同数据类型和功能的处理元素。

“随着越来越多的设备连接在一起，越来越多的应用程序可用，我们看到数据呈指数级增长。我们还看到了根本上不同的工作负载，并且随着数据和不同使用模型的不断发展，可以预期工作负载会发生更多变化。数据的演变推动了硬件的改变，以及对计算的需求与以往不同。”

英特尔副总裁兼设计支持总经理加里·帕顿（Gary Patton）在SEMI最近举行的高级半导体制造大会上发表主题演讲时说。“我们绝对需要继续扩展技术，但这还不够。我们需要解决系统级的异构集成，制程技术中的设计共同优化，软件和硬件之间的优化，以及重要的是，

因此，尽管晶体管级的性能仍然是一个重要因素，但在前沿，它只是其中的几个。但是至少在可预见的将来，这也是最大的芯片制造商不愿意放弃或让步的一场竞赛。三星最近披露了有关其即将面世的3nm工艺的更多细节，该工艺基于下一代晶体管类型的技术，即所谓的全栅极（GAA）FET。

本月，IBM开发了基于GAA FET的2nm芯片。另外，台积电正在研究3nm和2nm，而英特尔也在开发先进的工艺。所有这些公司都在开发一种称为纳米片FET的GAA FET，其性能要优于当今的finFET晶体管。但是它们制造起来更困难，也更昂贵。

7nm

图1：平面晶体管与finFET以及GAA，来源：Lam Research

预计3nm的生产将于2022年中开始，并且2nm的生产将在2023/2024之前完成，因此业界需要为这些技术做好准备。但是情况令人迷惑，关于新节点和功能的声明并不完全像它们看起来的那样。一方面，行业继续在不同的节点上使用传统的编号方案，但是术语并没有真正反映出哪家公司领先。此外，芯片制造商在所谓的3nm节点上朝着不同的方向发展，并不是所有的3nm技术都一样。

这样做的好处是每个新节点都是特定于应用程序的。在过去的几个工艺节点中，芯片的扩展速度正在放缓，并且性价比在不断缩小，而且很少有公司能够负担得起仅基于最新节点设计和制造产品的费用。另一方面，开发这些工艺的成本飞涨，装备先进晶圆厂的成本也在飞速增长。如今，三星和台积电是仅有的两家能够制造7nm和5nm芯片的供应商。

此后，晶体管结构开始发生变化。三星和台积电正在基于当今的finFET生产7nm和5nm的芯片。三星将转向3nm的纳米片FET。英特尔也在开发GAA技术。台积电计划将finFET扩展到3nm，然后在2024年左右迁移到2nm的纳米片FET。

IBM还正在开发使用纳米片的芯片。但是该公司已经几年没有生产自己的芯片了，目前将其生产外包给三星。

扩展，混乱的节点

几十年来，IC行业一直试图与摩尔定律保持同步，每18至24个月使芯片中的晶体管密度增加一倍。晶体管就像芯片中的开关一样，由源极，漏极和栅极组成。在操作中，电子从源极流到漏极，并受到栅极的控制。某些芯片在同一设备中具有数十亿个晶体管。

尽管如此，以18至24个月的节奏，芯片制造商推出了一种具有更高晶体管密度的新工艺技术，从而降低了每个晶体管的成本。以这种节奏（称为节点），芯片制造商将晶体管规格扩展了0.7倍，从而使该行业在相同功率下可将性能提高40％，并将面积减小50％。该公式使新的更快的芯片具有更多功能。

每个节点都有一个数字名称。几年前，节点的指定是基于关键的晶体管指标，即栅极长度。“例如，0.5μm技术节点生产的栅极长度为0.5μm的晶体管，” Lam Research大学项目负责人Nerissa Draeger解释说。

随着时间的流逝，栅极长度缩放速度变慢，并且在某些时候，它与相应的节点号不匹配。Draeger说：“多年来，技术节点的定义已经发展起来，现在被认为更像是世代名称，而不是衡量任何关键维度。”

一段时间以来，节点号已成为纯粹的市场名称。例如，5nm是当今最先进的工艺，但尚无商定的5nm规格。3nm，2nm等也是如此。当供应商为节点使用不同的定义时，这更加令人困惑。英特尔将基于其10纳米制程来交付芯片，这对于台积电和三星而言大致相当于7纳米。

多年来，供应商或多或少地遵循国际半导体技术路线图（ITRS）定义的晶体管缩放规格。2015年，ITRS的工作被暂停，由业界自行定义规格。IEEE取而代之的是实施了《国际设备和系统路线图》（IRDS），该指南着重于持续扩展（More Moore）和高级封装与集成（More Than Moore）。

Draeger说：“保持不变的是，我们期望节点扩展将带来更好的设备性能，更高的电源效率和更少的制造成本。”

这并非易事。多年以来，供应商一直使用传统的平面晶体管来开发芯片，但十年前，这些结构的壁垒达到了20nm。平面晶体管仍用于28nm / 22nm及以上的芯片中，但业界需要一种新的解决方案。因此，英特尔在2011年推出了22nm的finFET。铸造厂紧随其后的是16nm / 14nm的finFET。在finFET中，电流的控制是通过在鳍的三个侧面的每一个上实现栅极来实现的。

FinFET使业界能够继续进行芯片缩放，但它们也因功能更小而变得更加复杂，从而导致设计成本不断攀升。根据IBS首席执行官汉德尔·琼斯的说法，设计一种“主流” 7nm设备的成本为2.17亿美元，而采用28nm芯片的设计成本为4000万美元。在这种情况下，成本是在一项技术投入生产后的两年或更长时间内确定的。

在7nm及以下的波长下，静电泄漏再次成为问题，功率和性能优势也开始减少。现在，性能提升在15％到20％的范围内。

同时，在制造方面，finFET需要更复杂的工艺，新材料和不同设备。这反过来又增加了制造成本。“如果将今天的45nm与5nm进行比较，我们会发现芯片成本增加了5倍。这是由于所需的处理步骤数量所致，” TEL America副总裁兼副总经理Ben Rathsack说道。

随着时间的流逝，越来越少的公司拥有生产前沿芯片的资源或看到的价值。今天，GlobalFoundries，三星，中芯国际，台积电，联电和英特尔正在制造16nm / 14nm芯片。（英特尔将其称为22nm）。但是只有三星和台积电能够制造7nm和5nm的芯片。英特尔仍在开发7nm及更高版本，中芯国际正在开发7nm。

转向纳米片

在3nm以下，缩放变得更加困难。开发可靠且符合规格的低功耗芯片提出了一些挑战。此外，据IBS称，开发主流的3nm芯片设计的成本达到了惊人的5.9亿美元，而5nm器件的成本为4.16亿美元。

然后，在制造方面，代工客户可以沿着3nm走两条不同的道路，这给他们带来了艰难的选择和各种折衷。

台积电计划通过缩小5nm finFET的尺寸来将finFET扩展到3nm，从而使过渡尽可能无缝。IBS的琼斯说：“ TSMC计划在2022年第三季度为苹果公司提供3nm finFET的量产，计划在2023年第三季度实现高性能计算，”

不过，这是一项短期策略。当鳍片宽度达到5nm（等于3nm节点）时，FinFET接近其实际极限。根据新的IDRS文件，3nm节点相当于16nm至18nm的栅极长度，45nm的栅极间距和30nm的金属间距。相比之下，根据该文件，5nm节点等于18nm至20nm的栅极长度，48nm的栅极节距和32nm的金属节距。

一旦finFET碰壁，芯片制造商将迁移到纳米片FET。三星将直接采用3nm的纳米片FET。根据IBS的数据，该产品定于2022年第四季度生产。

据IBS称，台积电计划在2024年推出2nm的纳米片FET。英特尔也在开发GAA。多家无晶圆厂设计公司正在研究3nm和2nm器件，苹果等公司计划将该技术用于下一代器件。

纳米片FET是finFET的演进步骤。在纳米片中，将来自finFET的鳍片放在其侧面，然后分成独立的水平片。每片或每片构成通道。第一纳米片FET将可能具有3个左右的片。一扇门包裹着所有的薄片或通道。

纳米片在结构的四个侧面上实现了栅极，比finFET能够更好地控制电流。Leti的高级集成工程师Sylvain Barraud表示：“除了具有更好的栅极控制能力（与finFET相比）以外，GAA堆叠的纳米片FET还具有更高的有效沟道宽度，从而具有更高的DC性能。

相对于finFET，纳米片FET具有其他优势。在finFET中，器件的宽度被量化，这影响了设计的灵活性。在纳米片中，IC供应商具有改变晶体管中片的宽度的能力。例如，具有更宽的薄片的纳米薄片提供了更多的驱动电流和性能。窄的纳米片具有较小的驱动电流，但占用的面积较小。

“宽范围的可变纳米片宽度提供了更大的设计灵活性，由于鳍片数量不连续，因此对于finFET来说是不可能的。最后，由于使用不同的功函数金属，GAA技术还提出了多种阈值电压形式，” Barraud说。

首批3nm器件开始以早期测试芯片的形式滴入水中。在最近的一次活动中，三星披露了基于3nm纳米片技术的6T SRAM的开发。该设备解决了一个主要问题。SRAM缩放缩小了器件的面积，但同时也增加了位线（BL）的电阻。作为响应，三星将自适应双BL和电池供电辅助电路集成到SRAM中。

三星研究人员Taejoong Song在论文中说：“提出了一种全能的SRAM设计技术，该技术可以在功耗，性能和面积之外，更自由地提高SRAM容限。” “此外，提出了SRAM辅助方案来克服金属电阻，从而最大限度地提高了GAA器件的优势。”

同时，IBM最近展示了一种2nm测试芯片。该器件基于纳米片FET，可以集成多达500亿个晶体管。每个晶体管由三个纳米片组成，每个纳米片的宽度为14nm，高度为5nm。总而言之，该晶体管具有44nm的接触多晶硅节距和12nm的栅极长度。

IBM仍在研发中，其目标是在2024年推出该芯片。但是，在任何节点上，纳米片材设备在投入生产之前都面临数项挑战。IBM混合云研究副总裁Mukesh Khare说：“挑战的数量没有限制。” “我会说最大的挑战包括泄漏。

您如何降低功率？当您的薄板厚度为5nm且通道长度为12nm时，如何在小尺寸上提高性能？您如何在2nm中获得合理的RC好处？最后，与以前的节点相比，该芯片必须具有更高的性能。”

制作纳米片FET是困难的。“在全能门纳米片/纳米线中，我们必须在看不见的结构下进行处理，而在该结构下进行测量更具挑战性。这将是一个更加困难的过渡，” Lam Research计算产品副总裁David Fried说。

在工艺流程中，纳米片FET开始于在基板上形成超晶格结构。外延工具在衬底上沉积硅锗（SiGe）和硅的交替层。

这需要极端的制程控制。“对每对Si / SiGe的厚度和成分进行在线监测至关重要，”布鲁克产品营销总监Lior Levin说。“这些参数是器件性能和良率的关键。”

下一步是在超晶格结构中开发微小的垂直鳍片。然后，形成内部隔离物。然后，形成源极/漏极，然后进行沟道释放工艺。栅极被显影，形成纳米片FET。

7nm

图2：堆叠纳米片FET的工艺流程。资料来源：Leti /半导体工程

不仅限于晶体管

晶体管缩放比例只是方程式的一部分。并且，在规模竞争继续进行的同时，异构集成方面的竞争也同样激烈。许多最先进的架构不仅包含在单个处理节点上开发的单片芯片，还包含多个处理元素，其中包括一些高度专业化的元素以及不同类型的存储器。

英特尔的Patton说：“分布式计算正在推动另一种趋势-特定领域的架构不断增加。我们看到的另一个趋势是特定于领域的体系结构，这些体系结构从整体上分解出来，主要是由AI驱动的，并且是为提高效率而量身定制的。”

先进的封装将复杂的模具集成到一个封装中，发挥着重要作用。Patton说：“封装创新现在开始在提高产品性能方面发挥更大的作用。”

“从一个节点到另一个节点，性能，功率和面积肯定涉及更多因素，” Arm技术副总裁兼研究员Peter Greenhalgh说。“如果世界仅仅依靠晶圆厂来获得全部收益，您将非常失望。Arm提供了一种乐高设计。该乐高积木被添加到其他乐高积木中，以构建一个非常有趣的芯片。这样做有很多昂贵的方法，但也将在一定程度上实现商品化和协调化。”

向异构架构过渡的同时，还扩展了边缘范围，涵盖了从物联网设备到各种级别的服务器基础架构的所有方面，以及Google，阿里巴巴，AWS和Apple等系统公司为设计自己的硬件而采取的行动在大型数据中心内优化其特定数据流。

这掀起了狂热的设计活动，将定制和非定制硬件，非标准封装以及各种方法（例如内存和近内存处理）结合在一起，这些方法过去从未获得过广泛的关注。它还着重于如何对处理进行分区，哪些组件和流程需要在微体系结构中确定优先级，以及基于特定异构设计的各种组件的最佳处理节点是什么。

Greenhalgh说：“视频加速就是一个很好的例子。” “如果您是一家云服务器公司，并且要进行大量的视频解码和编码，那么您就不想在CPU上这样做。您要在其中放置视频加速器。这是一个范式转变。”

因此，存在更多且不同种类的处理器元素。还为现有的处理器内核开发了更多扩展。

Synopsys的高级市场营销经理Rich Collins说：“通过添加自定义指令或使用自定义加速器，我们一直能够扩展架构（用于ARC处理器）。” “现在的不同之处在于，越来越多的客户正在利用这一优势。人工智能是一个时髦的名词，它意味着很多不同的东西，但是在这个术语后面，我们看到了很多变化。越来越多的公司在标准处理器上添加了神经网络引擎。”

这些变化不仅仅是技术上的。这也需要芯片公司内部的变化，从各种工程团队的组成到公司本身的结构。

英飞凌汽车高级副总裁Shawn Slusser表示：“过去，您会发明一堆产品，将它们放在一堆数据手册中，然后人们会尝试找到它们。” “由于设备的复杂性和使用寿命，这种方法不再可行。现在，我们正在寻找一种更像是半导体超级市场的模型。如果您想将现实世界与数字世界联系起来，那么一切都在一个地方，包括产品，人员和专业知识。”

较大的公司一直在内部开发这种专业知识。这在苹果的M1芯片中很明显。该芯片是使用台积电的5nm工艺开发的。它集成了Arm V8内核，GPU，自定义微体系结构，神经引擎和图像信号处理器，所有这些都捆绑在一个系统级封装中。尽管该设计的性能可能不如使用标准行业基准的其他芯片那样出色，但运行Apple应用程序的性能和功耗方面的改进显而易见。

根据行业估计，截至今天，已有约200家公司已经开发或正在开发加速器芯片。其中有多少能存活还不得而知，但走向分崩离析是不可避免的。在边缘，汽车，安全系统，机器人，AR / VR甚至智能手机生成的数据太多，无法将所有数据发送到云进行处理。

它花费的时间太长，并且需要太多的功率，内存和带宽。该数据中的许多数据都需要进行预处理，并且为处理该数据而对硬件进行的优化越多，电池寿命就越长或电力成本就越低。

这就是为什么风险投资在过去几年中一直向硬件初创公司投入资金的原因。在接下来的12到24个月内，该领域预计将显着缩小。

Flex Logix首席执行官Geoff Tate表示：“在推断方面，随着公司进入市场并与客户互动，窗口将开始关闭。” “在接下来的12个月中，投资者将开始获得硬数据，以查看哪种架构真正获胜。在过去的几年中，谁拥有最好的滑盖是一个问题。客户将加速视为运行神经网络模型的必要手段。“对于我的模型，它将运行多快，它将消耗多少功率以及花费多少？” 他们将选出最适合自己比赛或符合条件的赛马。”

设计也在云端发生变化。在云中，更快的处理以及准确确定处理发生在何处的能力可能会对能效，所需的不动产数量以及数据中心的容量产生重大影响。例如，该DRAM不仅可以将DRAM连接到芯片上，还可以在许多服务器中池化，从而使工作负载可以分布在更多计算机上。这不仅为负载平衡提供了更大的粒度，而且还提供了散热的方式，从而减少了对冷却的需求，并有助于延长服务器的使用寿命。

Rambus资深研究员，发明家史蒂文·伍（Steven Woo）说：“您在其中一些数据中心中有成千上万台服务器，在世界范围内有数以万计的数据中心。” “现在，您必须弄清楚如何将它们捆绑在一起。有一些新技术即将问世。一种是DDR5，它具有更高的电源效率。

更远的地方是Compute Express Link（CXL）。长期以来，您可以放入服务器的内存量受到限制。你只能在那里得到很多。但是，由于能够在云中执行更多工作并租用虚拟机，因此工作负载的范围要大得多。CXL使您能够在系统中具有基本配置，还可以扩展可用的内存带宽和容量。

结论

争夺下几个制程节点的竞争仍在继续。剩下的问题是，当公司可以通过其他方式获得足够的收益时，哪些公司愿意花时间和金钱在这些节点上开发芯片。

不同市场的经济和动态正在迫使芯片制造商评估如何以最大的投资回报率来最好地应对市场机会，在某些情况下，这可能远远超出开发先进芯片的成本。实现不同目标的方法有很多，而到达目标的方法通常不止一种。

来源：内容由摩尔芯闻编译自「semiengineering」，谢谢。

编辑：jq

打开APP阅读更多精彩内容