谈存储芯片的演进之路

i2et_wc_ysj 2024-01-24 1255

存储技术

627人已加入

描述

最近semiengineering与业内专家就日益异构的系统中内存的发展之路进行了讨论。以下是对话的摘录。

当我们与AI/ML和功率需求作斗争时，需要重新考虑哪些配置?我们会看到冯·诺伊曼架构的转变吗?

Steven Woo，Rambus的杰出发明家：就系统架构而言，行业中出现了分歧。我们在基于x86的云服务器上运行的占主导地位的传统应用程序不会消失。已经建立和发展了几十年的软件，它们将依赖于这种架构来运行良好。相比之下，AI/ML是一个新类别。人们重新考虑了体系结构，并构建了非常特定于领域的处理器。我们看到，大约三分之二的能量花在处理器和HBM设备之间的数据移动上，而只有大约三分之一的能量花在实际访问DRAM核心中的比特上。数据移动现在更具挑战性，成本也高得多。我们不会消除记忆。我们需要它是因为数据集越来越大。所以问题是，‘什么才是正确的前进道路?“有很多关于堆叠的讨论。如果我们把内存直接放在处理器上，它会为你做两件事。首先，今天的带宽是由岸边或芯片的周长限制。这就是I/ o的去向。但是如果你把它直接堆叠在处理器上，现在你可以利用芯片的整个面积来进行分布式互连，你可以在内存本身获得更多的带宽，它可以直接向处理器提供信息。链路变得更短，电源效率可能会提高5到6倍。其次，由于更多的区域阵列与内存互连，您可以获得的带宽量也增加了几个整数倍。同时做这两件事可以提供更多的带宽，并使其更节能。行业的发展满足了各种需求，这绝对是我们看到存储系统在未来开始发展的一种方式，它将变得更加节能，并提供更多的带宽。

Cadence 产品管理组总监Frank Ferro ：当我在2016年开始研究HBM时，一些更高级的客户问它是否可以堆叠。他们一直在研究如何将DRAM堆叠在上面，因为有明显的优势。从物理层来看，PHY基本上可以忽略不计，这节省了大量的功率和效率。但现在你有了一个100w的处理器，上面还有一个内存。记忆承受不了热量。这可能是热量链中最薄弱的一环，这就带来了另一个挑战。这是有好处的，但他们仍然需要弄清楚如何应对热气流。现在有更多的动机推动这种类型的架构向前发展，因为它确实在性能和功率方面节省了您的总体成本，并且它将提高您的计算效率。但也有一些物理设计上的挑战需要解决。正如史蒂夫所说，我们看到各种各样的架构正在出现。我完全同意GPU/CPU架构不会消失，它们仍将占据主导地位。与此同时，地球上的每家公司都在努力开发更好的捕鼠器来实现他们的人工智能。我们看到片上SRAM和高带宽存储器的组合。在如何在数据中心中利用LPDDR的问题上，LPDDR近来一直备受关注。我们甚至看到GDDR被用于一些人工智能推理应用程序，以及所有旧的内存系统。他们现在正试图在一个空间内压缩尽可能多的ddr5。我看过你能想到的所有架构，无论是DDR、HBM、GDDR还是其他。这取决于你的处理器核心，你的整体附加值是什么，然后你如何突破你的特定架构。内存系统，所以你可以雕刻你的CPU和你的内存架构，这取决于什么是可用的。

Jongsin Yun，西门子 EDA内存技术专家：另一个问题是非波动性。例如，如果人工智能必须处理运行基于物联网的人工智能之间的电源间隔，那么我们就需要大量的电源开关，并且所有用于人工智能训练的信息必须一次又一次地旋转。如果我们有某种解决方案，可以将这些重量存储到芯片中，这样我们就不必总是为相同的重量来回移动，那么它将节省大量电力，特别是对于基于物联网的人工智能。将会有另一种解决方案来满足这些电力需求。

Frank Schirrmeister，Arteris解决方案和业务开发副总裁：从NoC的角度来看，我觉得有趣的是，你必须优化这些路径，从处理器到NoC，通过控制器访问内存接口，可能通过UCIe将一个芯片传递给另一个芯片，然后芯片中有内存。这并不是说冯·诺伊曼架构已经死了。但是现在有很多变化，这取决于您想要计算的工作负载。它们需要在记忆的背景下考虑，而记忆只是一个方面。你从哪里得到数据的位置，它是如何安排在这个DRAM?我们正在研究所有这些东西，比如内存的性能分析，然后在其上优化系统架构。它激发了许多新架构的创新，这是我在大学学习冯·诺伊曼时从未想过的。在另一端，你有像网格这样的东西。现在有更多的架构需要考虑，这是由内存带宽、计算能力等驱动的，而不是以同样的速度增长。

Randy White，是德科技内存解决方案项目经理：有一种趋势涉及到分解计算或分布式计算，这意味着架构师需要更多的工具。内存层次结构已经扩展。包括语义，以及CXL和不同的混合存储器，可用于闪存和DRAM。与数据中心并行的应用程序是汽车。汽车总是有这种传感器计算与ecu(电子控制单元)。我很着迷于它是如何演变成数据中心的。快进，今天我们有了分布式计算节点，称为域控制器。这是一样的。它试图解决的问题是，也许功率不是一个大问题，因为计算机的规模没有那么大，但延迟肯定是汽车的一个大问题。ADAS需要超高带宽，你需要做出不同的权衡。然后你有更多的机械传感器，但在数据中心有类似的限制。你有了不需要低延迟的冷存储，然后你有了其他高带宽应用。看到架构师的工具和选择已经发生了多大的变化是很有趣的。这个行业已经做出了很好的回应，我们所有人都提供了各种各样的解决方案，以满足市场的需求。

内存设计工具是如何发展的?

Schirrmeister：当我在90年代开始制作我的第一批芯片时，最常用的系统工具是Excel。从那时起，我就一直希望它能在某一点上中断，因为我们在系统级做的事情，内存、带宽分析等等。这对我的团队影响很大。在当时，这是非常先进的东西。但兰迪的观点是，现在某些复杂的东西需要在一定的保真度上进行模拟，这在以前没有计算机是不可能的。举个例子，假设DRAM访问的一定延迟可能导致糟糕的体系结构决策，并可能错误地设计芯片上的数据传输体系结构。另一面也是如此。如果您总是假设最坏的情况，那么您将过度设计体系结构。让工具执行DRAM和性能分析，并为控制器提供适当的模型，使架构师可以模拟所有这些，这是一个令人着迷的环境。从90年代开始，我就希望Excel作为一个系统级工具可能会在某一点上崩溃，因为某些动态影响你不能再用Excel来做了，因为你需要模拟它们——尤其是当你扔进一个带有PHY特性的死对死接口时，然后链接层特性，比如所有的检查是否都是正确的，并可能重新发送数据。不进行这些模拟将导致次优架构。

Ferro：我们做大多数评估的第一步是给他们提供内存测试平台，开始观察DRAM的效率。这是一个巨大的进步，即使是像运行本地工具来进行DRAM模拟这样简单的事情，也要进行全面的模拟。我们看到越来越多的客户要求这种模拟。在任何评估中，确保您的DRAM效率在90%以上是非常重要的第一步。

Woo:你看到全系统模拟工具兴起的部分原因是dram变得更加复杂了。对于一些复杂的工作负载，现在使用Excel这样的简单工具是很难做到的。如果你看一下90年代的DRAM数据表，那些数据表大概有40页。现在已经有几百页了。这只是说明了为了获得高带宽，设备的复杂性。再加上内存是系统成本的驱动因素，以及与处理器性能相关的带宽和延迟。它也是一个很大的动力驱动因素，所以你现在需要在更详细的层面上进行模拟。就工具流而言，系统架构师理解内存是一个巨大的驱动因素。因此，这些工具需要更加复杂，并且它们需要与其他工具进行良好的接口，以便系统架构师能够获得最佳的全局视图，以了解正在发生的事情—特别是内存如何影响系统。

Yun:随着我们进入人工智能时代，使用了很多多核系统，但我们不知道哪些数据去了哪里。它也更加平行于芯片。内存的大小要大得多。如果我们使用chatgpt类型的AI，那么模型的数据处理需要大约350MB的数据，这对于一个权重来说是一个巨大的数据量，实际的输入/输出要大得多。所需数据量的增加意味着有很多我们以前从未见过的概率效应。要查看与这么大的内存有关的所有错误，这是一项极具挑战性的测试。ECC无处不在，甚至在SRAM中，它传统上不使用ECC，但现在它在最大的系统中很常见。测试所有这些都是非常具有挑战性的，需要EDA解决方案来支持测试所有这些不同的条件。

工程团队在日常工作中面临哪些挑战?

White:在任何一天，你都能在实验室找到我。我卷起袖子，把手弄脏了，戳电线，焊接什么的。我想了很多关于后硅验证的事情。我们谈到了早期的模拟和芯片上的工具——BiST，以及类似的东西。在一天结束的时候，在我们发布之前，我们想要做一些系统验证或设备级测试。我们讨论了如何克服记忆墙。我们共同定位内存，HBM等。如果我们看看包装技术的发展，我们从含铅包装开始。它们对信号完整性不太好。几十年后，我们转向优化信号完整性，如球栅阵列(bga)。我们无法访问它，这意味着你无法测试它。因此，我们提出了这个概念，称为设备插播器-一个BGA插播器-它使我们能够夹在一个特殊的夹具中，将信号路由出去。然后我们可以把它连接到测试设备上。快进到今天，现在我们有HBM和小婴儿。我如何夹夹我的夹具之间的硅中间层?我们做不到，这就是我们的挣扎。这是一个让我夜不能寐的挑战。在OEM或系统客户无法获得90%效率的情况下，我们如何在现场执行故障分析?链接中有更多的错误，它们不能正确初始化，训练也不能正常工作。是系统完整性问题吗?

Schirrmeister:难道你不愿意在家里用虚拟界面来做这个，而不是走到实验室去吗?答案不就是你在芯片中内置更多的分析吗?通过小芯片，我们进一步整合了一切。让你的烙铁在那里不是一个真正的选择，所以需要有一种方法，芯片上的分析。NoC也有同样的问题。人们查看NoC，你发送数据，然后它就消失了。我们需要把分析放到那里，这样人们就可以进行调试，并扩展到制造层面，这样你就可以在家工作，并基于芯片分析完成所有工作。

White:特别是在高带宽内存的情况下，你无法亲自进入那里。当我们授权PHY时，我们也有一个与之配套的产品，这样你就可以监视这1024位中的每一个。您可以从该工具开始读写DRAM，因此您不必亲自进入该工具。我喜欢中间人的想法。在测试期间，我们确实会从中间插脚中取出一些引脚，这在系统中是无法做到的。进入这些3D系统真的是一个挑战。甚至从设计工具流程的角度来看，似乎大多数公司在这些2.5D工具上都有自己的流程。我们开始以一种更加标准化的方式来构建一个2.5D系统，从信号完整性，功率，整个流程。

White:随着事情的发展，我希望我们仍然能保持同样的精确度。我在UCIe外形尺寸合规小组。我在研究如何描述一个已知的好骰子，一个金骰子。最终，这将花费更多的时间，但我们将在我们需要的测试的性能和准确性，以及内置的灵活性之间找到一个满意的中间点。

Schirrmeister:如果我在更开放的生产环境中研究小芯片及其应用，测试是使其正常工作的更大挑战之一。如果我是一家大公司，我控制着它的所有方面，那么我可以适当地约束事情，这样测试等就变得可行。如果我想用UCIe的口号，UCI和PCI只有一个字母的距离，我想象未来UCIe的组装，从制造的角度来看，就像今天PC上的PCI插槽一样，那么测试方面真的很有挑战性。我们需要找到解决办法。有很多工作要做。

审核编辑：黄飞

打开APP阅读更多精彩内容