深入解析NVIDIA Blackwell架构及其实现细节

算力基建 2024-03-31 5029

电子说

1.4w人已加入

描述

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，阿里巴巴通义千问大模型技术负责人周畅，「清华系Sora」生数科技CEO唐家渝，Open-Sora开发团队潞晨科技创始人尤洋等40+位嘉宾已确认参会，其中鸿博股份副总裁&英博数科CEO周韡韡，中科曙光智能计算产品事业部总经理杜夏威，安谋科技产品总监杨磊三位算力与芯片领域的大咖将带来主题演讲，欢迎报名。

小编按：美国时间3月18日在美国圣何塞SAP中心举行Nvidia GTC 2024，CEO黄仁勋开幕演说：见证AI变革时刻。其中最火最热的当属Blackwell架构和其架构下的B200 GPU。各方解读都有，本文整理anandtech翻译，尝试浅析Blackwell的架构和实现，供各位参考。不当之处请批评指正。

目前，英伟达已经稳固地占据了生成式人工智能加速器市场的主导地位，它长期以来一直明确表示，该公司不会放慢脚步并查看观点。相反，英伟达打算继续迭代其GPU和加速器的多代产品路线图，以利用其早期优势，并在加速器市场中不断增长的竞争对手中保持领先地位。因此，尽管 NVIDIA 广受欢迎的 H100/H200/GH200 系列加速器已经是硅谷最热门的门票，但现在是时候谈论下一代加速器架构来满足NVIDIA的AI 野心了：Blackwell。

在 5 年来首次面对面GTC的背景下（自Volta成立以来，NVIDIA从未举办过此类GTC，NVIDIA首席执行官黄仁勋（Jensen Huang）将登台宣布公司在过去几年中一直在努力开发的一系列新企业产品和技术。但这些公告都不像英伟达的服务器芯片公告那样引人注目，因为正是Hopper架构GH100芯片和运行在它之上的NVIDIA深度软件堆栈揭开了AI加速器行业的盖子，并使NVIDIA成为全球第三大最有价值的公司。

Blackwell架构以美国统计学和数学先驱David Harold Blackwell博士的名字命名，他撰写了第一本贝叶斯统计学教科书，Blackwell 架构再次成为 NVIDIA 在公司许多标志性架构设计上加倍努力的理念，希望找到更智能、更努力地工作的方法，以提高其最重要的数据中心/HPC加速器的性能。NVIDIA与 Hopper（以及之前的Ampere）合作得非常好，在高层次上Blackwell的目标是带来更多相同的功能，但具有更多功能、更大的灵活性和更多的晶体管。

正如我在 Hopper 发布会上所写的那样，“NVIDIA 已经为如何应对服务器 GPU 行业制定了一个非常可靠的剧本。在硬件方面，基本上可以归结为正确识别当前和未来的趋势以及客户对高性能加速器的需求，投资于以极快的速度处理这些工作负载所需的硬件，然后优化所有这些。对于布莱克威尔来说，这种心态并没有改变。NVIDIA 改进了其芯片设计的各个方面，从性能到内存带宽，每个元素都旨在提高特定工作负载/场景的性能或消除可扩展性的瓶颈。而且，NVIDIA再次继续寻找更多方法来减少工作量。

在今天的GTC主题演讲之前，NVIDIA向媒体提供了有关Blackwell架构和实现该架构的第一款芯片的有限预简报。我之所以说“有限”，是因为该公司在主题演讲之前没有透露一些关键规格，甚至 GPU 本身的名称也不清楚;NVDIA称其为“Blackwell GPU”。但以下是我们目前所知道的关于下一代 NVIDIA 加速器核心的概要。

英伟达

除非另有说明，否则密集/非稀疏操作的张量吞吐量数据

首先要注意的是，Blackwell GPU将会很大。按照字面。它将进入的B200模块将在单个封装上具有两个GPU 芯片。没错，NVIDIA终于用他们的旗舰加速器实现了小芯片。虽然他们没有透露单个模具的尺寸，但我们被告知它们是“十字线大小”的模具，这应该使它们每个超过800mm2。GH100芯片本身已经接近台积电的4纳米光罩限制，因此NVIDIA在这里的增长空间非常小——至少不会停留在单个芯片内。

奇怪的是，尽管存在这些芯片空间限制，但NVIDIA并没有为Blackwell使用台积电3nm级节点。从技术上讲，他们正在使用一个新节点—台积电4NP—但这只是用于GH100 GPU的4N节点的更高性能版本。因此，多年来，英伟达第一次没有利用主要新节点的性能和密度优势。这意味着 Blackwell 几乎所有的效率提升都必须来自架构效率，而这种效率和横向扩展的庞大规模相结合将带来 Blackwell的整体性能提升。

尽管坚持使用4nm级节点，但NVIDIA已经能够将更多的晶体管压缩到单个芯片中。整个加速器的晶体管数量为 208B，即每个芯片 104B 晶体管。GH100是 80B 晶体管，因此每个 B100 芯片的晶体管总体上增加了约 30%，按照历史标准来看，这是一个适度的收益。这反过来又是为什么我们看到NVIDIA为其完整的GPU使用更多芯片的原因。

对于他们的第一款多芯片芯片，英伟达打算跳过尴尬的“一个芯片上有两个加速器”阶段，直接让整个加速器表现为单个芯片。根据英伟达的说法，这两个芯片作为“一个统一的CUDA GPU”运行，提供完整的性能，没有任何妥协。关键是芯片之间的高带宽I/O 链路，NVIDIA将其称为NV-高带宽接口（NV-HBI），并提供10TB/秒的带宽。据推测，这是总量，这意味着芯片可以同时向每个方向发送5TB/秒。

到目前为止，尚未详细说明的是这种链接的构建——NVIDIA 是否始终依赖晶圆基板芯片（CoWoS），使用基础芯片策略（AMD MI300），或者他们是否依赖单独的本地中介层来连接两个芯片（苹果的 UltraFusion）。无论哪种方式，这都比我们迄今为止看到的任何其他双芯片桥接解决方案的带宽都要大得多，这意味着大量的引脚都在发挥作用。

在Blackwell加速器上，每个芯片都与4个HBM3E存储器堆栈配对，总共8个堆栈，形成8192位的有效存储器总线宽度。所有 AI 加速器的制约因素之一是内存容量（不要低估对带宽的需求），因此能够放置更多堆栈对于提高加速器的本地内存容量非常重要。Blackwell GPU总共提供（高达）192GB的HBM3E，或24GB/堆栈，这与H200的24GB/堆栈容量相同（比原来的16GB/堆栈H100多50%的内存）。

据英伟达称，该芯片的总HBM内存带宽为8TB/秒，相当于每个堆栈1TB/秒，或8Gbps/引脚的数据速率。正如我们在之前的HBM3E报道中所指出的，内存最终设计为9.2Gbps/引脚或更高，但我们经常看到NVIDIA在其服务器加速器的时钟速度上玩得有点保守。无论哪种方式，这几乎是 H2.4内存带宽的100倍（或比 H200 多 66%），因此NVIDIA的带宽显着增加。

最后，这一代的TDP也再次上升。由于NVIDIA仍处于4nm 级节点上，并且现在将超过两倍的晶体管封装到单个Blackwell GPU中，因此TDP除了上升之外无处可去。B200是一个1000W的模块，高于H100的700W。B200机器显然仍然可以进行风冷，但毋庸置疑，NVIDIA预计液体冷却的使用将比以往任何时候都多，无论是出于必要还是出于成本原因。同时，对于现有的硬件安装，NVIDIA还将发布具有700W TDP的低端B100加速器，使其与H100系统兼容。

总体而言，与集群级别的H100相比，NVIDIA的目标是将训练性能提高4倍，推理性能提高30 倍，同时将能效提高25倍。我们将介绍这背后的一些技术，毫无疑问，有关NVIDIA打算如何实现这一目标的更多信息将在主题演讲中揭晓。

但从这些目标中得到的最有趣的收获是干扰性能的提高。NVIDIA目前在训练方面占据主导地位，但推理是一个更广泛、竞争更激烈的市场。然而一旦这些大型模型被训练出来，将需要更多的计算资源来执行它们，而NVIDIA不想被排除在外。但这意味着要找到一种方法，在一个更加残酷的市场中占据（并保持）令人信服的领先优势，因此NVIDIA有他们的工作要做。

布莱克威尔的三种类型：GB200、B200和B100

NVIDIA 最初将生产三个基于 Blackwell GPU 的加速器。

英伟达

旗舰独立加速器是B200，其TDP为1000 瓦，独树一帜。这部分与现有的 H100系统不兼容，相反，将围绕它构建新系统。

有趣的是，尽管这是NVIDIA将提供的传统加速器中最快的，但这并不是峰值性能的Blackwell配置。B200 仍然比最快的Blackwell产品慢 10% 左右。

什么是性能巅峰的产品？Grace·Blackwell超级芯片GB200。由两个Blackwell GPU和一个72 核Grace CPU组成，是所有Blackwell GPU中速度最快的。例如，这是Blackwell GPU中唯一可以达到每个GPU 20 PFLOPS稀疏 FP4计算性能的配置。当然，在单个超级芯片上使用两个Blackwell GPU，超级芯片的总吞吐量是其两倍，即40 PFLOPS FP4。

由于我们没有关于 Blackwell GPU 的任何详细规格，因此目前尚不清楚这是否只是时钟速度差异，或者 GB200 是否正在获得具有更多启用张量核心的 GPU 配置。但无论哪种方式，如果您想要最好的布莱克威尔，您都需要以 GB200 超级芯片的形式购买它，以及随之而来的 Grace。

英伟达

然而，GB200的电力成本很高。GB200模块配备2个GPU和板载高性能CPU，可以高达2700瓦的功率运行，是Grace Hopper 200（GH200）峰值可配置 TDP的2.7 倍。假设 Grace CPU 本身的 TDP 为 300W，这使得 Blackwell GPU 在这种配置下的 TDP 达到惊人的 1200W TDP。归根结底，TDP有些武断（你通常可以在电压/频率曲线上走得更远一点，以获得更多的功率），但从广义上讲，Blackwell最显著的性能提升也是以显著更高的功耗为代价的。

但对于那些负担不起更高功率预算的客户，NVIDIA 的最后一个Blackwell加速器SKU：B100。HGX B100 主板设计为与 HGX H100 主板直接兼容，以相同的每 GPU TDP 700 瓦运行。TDP 最低，这是性能最低的 Blackwell 加速器变体，额定可提供约 78% 的 B200 计算性能。但与它将取代的 H100 GPU 相比，B100 预计将在等精度下提供大约 80% 的计算吞吐量。当然，B100 可以访问更快、更大数量的 HBM3E 内存。

目前，NVIDIA尚未公布任何Blackwell配置的定价。第一批基于Blackwell的加速器将于今年晚些时候发货，但该公司没有提供任何关于它将是哪种Blackwell类型（或者是否会是所有类型）的指导。

第二代变压器发动机：精度更低

从架构上讲，NVIDIA 与 Hopper 的一大胜利是他们决定优化其 Transformer 类型模型的架构，其中包含专用硬件（NVIDIA 称之为 Transformer Engine）。通过利用变压器不需要以高精度（FP16）处理所有称重和参数这一事实，NVIDIA增加了对这些操作与较低精度（FP8）操作混合的支持，以减少内存需求并提高吞吐量。当 GPT-3/ChatGPT 在 2022 年晚些时候起飞时，这个决定得到了非常丰厚的回报，剩下的就是历史了。

那么，对于他们的第二代变压器引擎，NVIDIA将更加低迷。Blackwell 将能够处理低至 FP4 精度的数字格式——是的，一种只有 16 个状态的浮点数字格式——着眼于使用极低精度的格式进行推理。对于FP4提供的精度太低的工作负载，NVIDIA还增加了对FP6精度的支持。与 FP8 相比，FP6 没有提供任何计算性能优势——它基本上仍然作为 FP8 操作通过 NVIDIA 的张量核心——但由于数据大小缩小了 25%，它仍然提供内存压力和带宽优势。一般来说，LLM 推理仍然受到这些加速器的内存容量的限制，因此通过推理降低内存使用量有很大的压力。

与此同时，在训练方面，NVIDIA正在考虑在FP8上进行更多的训练，而不是目前使用的BF16 / FP16。这再次使计算吞吐量保持在较高水平，内存消耗较低。但是，LLM训练中使用的精度最终超出了NVIDIA的控制范围，而取决于开发人员，他们需要优化他们的模型以在这些低精度下工作。

在这一点上，转换器已经显示出一种有趣的能力，可以处理较低精度的格式，而不会在精度方面损失太多。但至少可以说，FP4 相当低。因此，在没有进一步信息的情况下，我非常好奇 NVIDIA 及其用户打算如何以如此低的数据精度满足他们的准确性需求，因为 FP4 对推理有用似乎是决定 Blackwell 作为推理平台的成败。

无论如何，NVIDIA 希望单个基于 Blackwell 的 GPU 能够提供高达 10 PetaFLOPS 的稀疏性 FP8 性能，或 5 PFLOPS 的密集矩阵。这大约是 H100 速率的 2.5 倍，甚至更荒谬的 FP4 推理性能为 20 PFLOPS。H100 甚至没有从 FP4 中受益，因此与其最小 FP8 数据大小相比，当可以使用 FP4 时，B200 的原始推理吞吐量应该会增加 5 倍。

英伟达

假设 NVIDIA 的计算性能比与 H100 保持不变，FP16 性能是 FP8 的一半，并从那里向下扩展，B200 也将是一款非常强大的芯片，精度也更高。尽管至少对于人工智能用途而言，但显然目标是尝试以尽可能低的精度逃脱。

另一方面，在主题演讲之前，FP64张量性能也未被披露。NVIDIA 自 Ampere 架构以来一直提供 FP64 张量功能，尽管与较低的精度相比，速度要低得多。这对绝大多数 AI 工作负载几乎没有用处，但对 HPC 工作负载是有益的。因此，我很好奇 NVIDIA 在这里计划了什么——B200 是否会在 HPC 方面发挥重要作用，或者 NVIDIA 是否打算全力以赴开发低精度 AI。

NVLink 5：1.8TB/秒的芯片IO，多机架域可扩展性

除了抛出更多的张量核心和更多的内存带宽之外，从硬件的角度来看，加速器性能的第三个关键因素是互连带宽。NVIDIA 对他们在过去十年中通过其专有的 NVLink 互连系统所取得的成就感到非常自豪，并且他们正在继续为 Blackwell 在带宽和可扩展性方面进行迭代。特别是考虑到需要将大量系统联网在一起，以便及时训练最大的 LLM，并建立一个足够大的内存池来容纳它们，NVLink 是 NVIDIA 加速器设计和成功的关键因素。

Blackwell推出了第五代NVLink，为了简单起见可称为NVLink 5。

英伟达

看看迄今为止披露的规格，在高层次上，NVIDIA已将NVLink的带宽从每个 GPU的900GB/秒翻倍到每个GPU的1800GB/秒。与上一代产品相比，这是过去几年NVLink带宽的最大飞跃，因为2022年的Hopper架构仅提供了50%的 NVLink带宽环比提升。

值得注意的是，NVIDIA将互连带宽量增加了一倍，同时将 GPU上的芯片数量增加了一倍，因此流入每个芯片的数据量没有变化。但是，由于两个芯片需要作为一个处理器协同工作，因此要消耗（和洗牌）的数据总量显着增加。

也许更有趣的是，在引擎盖下，每个GPU的NVLink数量没有变化;GH100 Hopper的NVLink 容量为18 个链路，Blackwell GPU 的 NVLink 容量也是 18个链路。因此，NVLink 5的所有带宽增益都来自链路中每个高速对的 200Gbps的更高信令速率。这与最近几代NVLink一致，后者在每次迭代中都使信令速率翻了一番。

否则，由于NVLink 4的链路数量保持不变，本地芯片拓扑选项基本保持不变。NVIDIA的HGX H100设计已经合并了4 路和8路设置，而HGX B200/B100设置将相同。这并不意味着NVIDIA没有增加NVLink域中GPU数量的雄心壮志，但它将是机架级别而不是节点级别。

这让我们想到了NVIDIA在展会上的大型芯片公告：第五代NVLink Switch。与NVLink的片上功能相对应，NVIDIA的专用NVLink交换机芯片既负责单节点通信，也负责将机架内的多个节点连接在一起。甚至在 NVIDIA收购网络专业公司Mellanox之前，该公司就已经通过NVLink交换机提供交换式GPU网络。

审核编辑：黄飞

打开APP阅读更多精彩内容