服务器行业将需要证明异构计算的有效性

存储加速器 2021-04-01 1364

描述

服务器中的CPU数量正在增长，制造这些处理器的供应商数量也在增加。

除了IBM的Power和Z系列是主要的例外之外，CPU服务器一般是多核的x86处理器。尽管不一定要更换x86处理器，但它们会通过新的处理器设计得到补充和扩充，以用于各种更专门的任务。

在最近的Top500超级计算机列表中，有140个超级计算机具有Nvidia GPU协处理器，而且这个数字只会增加。在未来5到10年内，通用服务器将随x86处理器，GPU，FPGA，Arm内核，AI协处理器，5G调制解调器和网络加速器一起交付。

这是公认的一种尺寸并不能完全适合应用程序处理。终端市场可能会四分五裂，所有这些都要求定制化的解决方案。结果，一定会导致计算的未来（尤其是在服务器端）是异构的。

TECHnalysis Research总裁兼首席分析师Bob O‘Donnell说：“人们发现，不同的芯片架构更适合于处理不同类型的工作负载。而且由于这种工作负载的多样化将继续，因此对多样化计算的需求也将继续。将会有其他必要的芯片。这并不意味着CPU会大量消失，但是其他类型的芯片将会有更多的多样性。然后最大的问题将是互连封装。”

英特尔在其XPU项目中采取了积极的态度，该项目将CPU，GPU（通过其新的Xe GPU），Altera的FPGA和AI处理器与API结合在一起。英特尔数据中心XPU产品和解决方案副总裁兼总经理Jeff McVeigh说：“我认为未来的发展不会有一个统一的答案。但是会有很多种类型，从紧密集成的单片芯片到集成到系统级连接的多芯片封装。”

Nvidia企业计算部门负责人Manuvir Das认为：“对不同计算体系结构的需求是由新数据类型驱动的。每个公司都有越来越多的数据可供使用。而且公司越来越愿意收集越来越多的数据。这样做的原因是因为他们现在可以看到他们可以从数据中获取价值。”

近几个月来，随着公司通过购买而非自然增长实现产品多样化，半导体行业见证了相当大的并购活动。

英伟达（Nvidia）是一家多年来未曾进行大笔收购的公司，它突然打开了钱包，以70亿美元的价格收购SmartNIC制造商Mellanox，以400亿美元的价格收购ARM Holdings。

AMD计划以350亿美元的价格收购Xilinx，这是多年来的首次重大收购行动。

Marvell Technology以60亿美元收购了Arm服务器芯片制造商Cavium，并以100亿美元收购了网络半导体制造商Inphi。

ADI公司已经签署了一项协议，以210亿美元的价格收购Maxim Integrated产品。

O’Donnell说：“他们之所以多样化，是因为他们都认识到必须拥有各种各样的不同芯片架构。最困难的部分将是英特尔要使用一种API来做的事情，那就是，我如何采用这些多样化的架构，并使它们可供人们使用？每个架构都需要不同的指令集，不同的编程方式，不同类型的编译器等。”

一个或多个芯片？

那么问题就变成了主板上是否会有一块大硅片，或者每个芯片组有多个插座？这几乎不是一个新主意。片上系统（system-on-chip）已经存在多年。但是SoC正在发生变化。

SoC设计通常会缩减处理器，尤其是GPU，以使所有这些芯片都适合合理的散热范围。仅具有完整CPU，GPU和FPGA的SoC的TDP约为700瓦，这对任何人来说都是完全没有吸引力的。如果要进行包装设计，则很可能会缩小处理器的规模。

系统和解决方案副总裁兼Rambus杰出发明家Steven Woo表示：“AMD已经做了一些伟大的工作，表明可以将小芯片封装用于CPU内核和I/O芯片。而且，如果您想获得更强大的功能，则可以构建整个小芯片，这些小芯片可能只是CPU内核，一个是更多的神经网络引擎，也许是GPU，然后可以将它们组合在一起。”

英特尔的McVeigh可以选择采用多封装设计。“从存储器带宽的角度来看，单封装设计显然有好处，但是在每个封装中可以装多少东西也有限制。因此，我认为未来的发展不会有一个单一的答案。但是，从紧密集成的单片芯片到集成到系统级连接的多芯片封装，将有多种选择。”他说。

英伟达也对多芯片封装的想法持开放态度，尽管它的愿景与英特尔类似。它提供所有的硅。Das指出，英伟达已经拥有Tegra形式的Arm/GeForce SoC，以及结合了Mellanox ConnectX-6网络控制器，Arm CPU和Ampere GPU的新型Bluefield 2数据处理单元（DPU）系列。按照Nvidia的发展路线图，2022年的BlueField 4将在一块硅片上配备所有三个CPU。

“如果仅考虑从现在起三年后以及从现在起五年后将要完成的计算量，那么如果您不这样做的话，世界将负担不起。因此，将有多种形式。当您靠近边缘时，它将看起来将更倾向于集成解决方案，” Das说。

但这就是英特尔和英伟达将自己所有的IP包装到一块硅中。当两家或更多公司合作的前景（例如，Marvell和AMD）时，这种观点是令人怀疑的。

Supermicro的FAE和业务开发高级副总裁Vik Malyala表示：“这将非常困难。为什么英特尔或AMD会向Nvidia开放有关其处理器架构的所有内容？英伟达也是如此。Nvidia为什么要开放其GPU的所有功能以与某人一起工作？所以说他们试图购买Arm是有原因的。”

Arm基础设施业务部门的营销高级总监Eddie Ramirez表示，多供应商芯片是有先例的。“如果您要看10年前的事，我们几乎还没有将您的设计与制造分开的初期阶段。对于现在的SoC，这是司空见惯的。因此，在您谈论的时间范围内，在5到10年内，生态系统将发展到可以使用来自不同供应商的硅片构建FCM的地步。”他说。

但是，他质疑鉴于不同的芯片具有不同的使用寿命，这是否是一个好主意。“拥有一台带有PCI卡的服务器是一回事，您可以更换卡。但是，当它们装在一个包装中时，您必须立即更换所有东西。这适用于不同的生命周期吗？这是这里的有趣之处。”他补充说。

Malyala还指出，芯片供应商针对不同的性能场景提供了多种芯片，将一大堆集成到一个封装中会限制客户的选择。例如，如果我是Xilinx，那么我有十几个不同的FPGA。但是，如果我要在给定的硅片中放置一个硅片，那就是说这就是它的原样，即使我的配置过多或配置不足，我也坚持这样做。

CXL公式

服务器中非CPU处理器的当前解决方案是PCI Express卡。GPU，SSD，FPGA和其他协处理器占用一个PCIe插槽，并且服务器中只有太多空间可用于存储卡，尤其是超薄1U和2U设计。

PCIe还具有作为点对点通信协议的局限性。由于Compute Express Link（CXL）协议可与PCIe以及其他自动协商交易协议一起使用，因此已迅速成为PCIe的替代协议。

McVeigh说：“当我们进入这些更复杂的体系结构时，真正需要的是可以支持对等通信的各种拓扑，以及能够扩展这些拓扑的能力。PCI Express本身并不能解决所有这些问题。但是，对于您希望能够进行升级的情况，显然是从现有设计中升级，即您拥有单独的卡，并且可能不需要完全的互连性，那么在那儿做得很好。”

CXL的一大优点是它通过其快速连接将加速器放置在距离处理器更近的位置，更重要的是，它使连接到加速器的内存成为系统内存的一部分，而不是专用设备内存。这可以减轻系统内存的负担，并减少必须移动的数据量，因为设备内存（例如GPU）中的数据很容易看到，而无需在系统内存之间来回移动。

无论多个处理器是在单个裸片上还是在多个裸片上，它们都必须以某种方式绑在一起，并且CXL被视为将它们绑定在一起的网格。PCIe有其用途，但它是点对点协议，而不是像CXL这样的网格。另外，CXL允许处理器共享内存，而PCIe则无法做到这一点。

“ CXL绝对是非常可信的，” Rambus的Woo说。“如果行业真正围绕它发展起来，那将是新型互连发展的垫脚石，我们将围绕节点之间相互连接所发生的事情对它进行更大程度的优化。也许将处理器连接到内存和分解方案，甚至将处理器连接到GPU和存储之类的东西。”

Ramirez说，CXL出现的一个例子是在具有PCIe的不同端点之间具有一致的内存访问的概念。如果您试图在一个加速器上进行一定数量的计算，并且需要与其他加速器进行通讯，则它们应该能够直接讲话，而不是使用“轮辐式”模型，在该模型中，一切都必须花一点时间才能完成。协调。拉米雷斯说：“ PCI Express本质上不具备该功能。”

可能会有一种全新的标准在PCIe的良好组成部分基础上发展，而忽略了不需要的部分。Woo指出，当两个PCI Express设备首先开始互相通信时，它们使用PCIe Gen 1进行协商，然后逐步升级，直到找到可以通话的最高速度。

Woo说：“整个初始化序列要麻烦一些。如果您从芯片设计师的角度考虑问题，必须把所有这些Gate都放进去，它们将习惯于弄清楚我可以更快地讲话，并且我不再使用那些晶体管了。拥有这种简单的协议是有好处的。作为硅设计师，我宁愿将这些Gate用于其他用途。”

一个可以统治所有应用程序的API

而没有软件的硬件只是一堆金属，因此，这些工作背后的真正问题是如何将它们组合在一起。英特尔的oneAPI程序提供了最完整的解决方案。oneAPI提供了用于计算和数据密集型领域的库，例如深度学习，科学计算，视频分析和媒体处理。

oneAPI可与用C，C ++，Fortran和Python编写的代码以及MPI和OpenMP等标准进行互操作。它还具有一组编译器，性能库，分析和调试工具，以及一个兼容性工具，该工具有助于将以CUDA编写的代码迁移到Data Parallel C ++（DPC ++），这是一种基于C ++和Khronos SYCL构建的开放式标准跨体系结构语言。

DPC ++扩展了这些标准，并提供了显式的并行构造和卸载接口，以支持各种计算体系结构和处理器。当然，它支持英特尔，但McVeigh说，他希望其他芯片公司也采用它。

McVeigh说：“我们将其视为一项行业计划，将这些异构架构与统一的编程模型结合在一起。而且我们已经将其用作真正结合这些架构的关键要素，因此您可以使用一种通用语言，一套与OS供应商解决方案一起使用的通用库（不仅是英特尔产品）对它们进行编程。”

O‘Donnell相信，该软件解决方案将全面存在，从BIOS和驱动程序供应商到Linux发行版，如Red Hat Enterprise Linux和Canonical的Ubuntu。他说：“这是一个如此多层的堆栈。现在，它是全面的。我认为您不会看到任何解决方案。涉及的部分太多了。”

结论

服务器行业将需要更多的证明点来证明异构计算的有效性。但这不是寻找市场的解决方案。存在着许多市场，随着边缘的推出，正在开发新的市场。所发生的变化是，解决方案是针对它们量身定制的，而不是最终市场适应现有的最佳现成技术。

O’Donnell说：“从概念上讲，我们将需要不同的芯片体系结构才有意义。我们需要一个单一的软件平台来利用它们，但是在这种硬件抽象层以及其他所有东西的幕后，它需要采取某种神奇的方式。”

随着人们开始使用多芯片架构，我们是否将开始看到它按他们期望的方式工作？我们是否正在获得人们期望的性能优势？划算吗？在现实世界中这实际上是如何工作的？

他说：“除了理论之外，这还有待观察。” “我们将不得不在多个层面上看到这一点。英特尔将驱动它，但是您也会看到其他公司也尝试驱动它。”

原文标题：服务器以后会变得越来越异构？

文章出处：【微信公众号：存储社区】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

打开APP阅读更多精彩内容