Nvidia发布安培GPU架构，7nm工艺+542亿个晶体管

独爱72H 2020-05-20 3235

嵌入式技术

1416人已加入

描述

（文章来源：半导体行业观察）

在近日的GTC上，Nvidia发布了最新的安培架构，以及基于安培架构的A100 GPU。A100 GPU使用台积电7nm工艺实现，包含了542亿个晶体管，据官方消息可以实现比起上一代V100高7倍的性能。除了算力提升之外，Nvidia还加入了GPU虚拟多实例（multi-Instance GPU，MIG）特性，可以让一块GPU虚拟化称为7个独立的GPU。

与安培架构同时公布的还有Nvidia DGX A100超级计算机，该超算平台包含了8块A100 GPU，峰值算力可达10 PetaOPS。在发布会上，Nvidia对于算力做了非常多的渲染。然而，在我们看来，Nvidia在算力之外的特性扩展将成为更重要的门槛，中国半导体业界想要研发自主的GPU也需要考虑这些算力之外的重要特性。

Nvidia A100 GPU相比于前一代V100 GPU，其算力提升主要来源于以下几方面：加入稀疏运算支持。这可能是A100 GPU运算架构上最大的革新了。具体来说，A100支持2:4的结构化稀疏，即在使用稀疏计算时，在矩阵中每四个元素就必须有两个或以上是0。通过稀疏运算，可以把性能提升两倍。事实上，深度学习中使用稀疏运算的概念从提出至今已经有差不多5年了，到了今天Nvidia终于把这个概念落地到了产品中，而且使用的是的2:4结构化稀疏，其两倍的加速可以说是比较保守的。

引入TF32数制。这主要针对训练计算。回顾人工智能训练计算的历程，最早普遍使用的是32位浮点数数制（FP32）。为了加速训练计算，从几年前开始Nvidia开始支持16位的FP16数制，该数制的优点是速度较快，但是动态范围方面在一些应用中存在一些问题。在A100中，Nvidia为了解决FP16的问题，引入了TF32数制。TF32事实上不是32位数制，而是19位数制，其动态范围（exponent）与FP32相同都是8位，但其精度（mantissa）与FP16相同都是10位，相当于是FP32和FP16的融合。相比FP32，TF32可以实现8倍的吞吐量提升。

更强更多的流处理器（SM）。在A100中，每个流处理器的张量矩阵计算能力是V100的2倍，而在GPU中流处理器的数量相比V100则增加了30%。更大的片上存储和更快的内存接口。A100的设计中，每个流处理器的L1缓存容量从V100的128KB增加到了192KB，L2 缓存则增加到了40MB，相比前一代增加了6.7倍。内存接口方面，A100的HBM2就恶口总贷款高达1555GB/s，相比前一代增加了1.7X。

总体来说，在计算架构方面，除了支持稀疏计算和引入TF32之外，其他的提升都属于可预计的常规提升，而稀疏计算和TF32在人工智能计算中也并非新概念。我们认为，这一代Nvidia A100的算力性能提升属于渐进式改良，而非革命式提升。我们认为，A100除了算力之外，其更重要的竞争壁垒提升来源于针对数据中心的GPU虚拟实例支持和互联方案。

在安培架构中，一个重要的新特性就是GPU虚拟实例MIG。随着云端数据中心GPU部署比例的提升，如何实现GPU虚拟化是一个重要任务，而这一点如果解决不好将会降低总体GPU利用率。目前，在云服务中，用户申请的CPU和内存实例大多数情况下都是虚拟化的，当你申请到n个CPU核的时候，并不是说你包下了这块CPU芯片，而是很有可能在同一块CPU芯片上不同的核会分配给不同用户，而用户并不用去担心说他的CPU核都位于哪一块芯片上，主要用就行了。粗略地说，这就是CPU虚拟化。

为了解决这个问题，MIG应运而生。A100中的MIG支持把同一块GPU划分成7个独立实例，每个实例之间的内存空间访问互不干扰，这样就可以实现细颗粒度的GPU计算资源分配，从而在计算需求非常异质化的云计算场景增加资源利用效率。诚然，目前MIG中支持的7个GPU虚拟实例划分或许还不算特别细颗粒度，但是却可以看作是走向虚拟化的重要里程碑。

除了MIG之外，A100还在多芯片互联上做了改善。首先，A100上包含了第三代NVLINK，主要用于同主机上GPU之间的互相通信，通信带宽相比V100增加了一倍到600GB/s。在GPU和CPU通信上，A100支持PCIe Gen4，相比上一代PCIe Gen3带宽也增加了一倍。此外，A100的互联还与Mellanox的解决方案做了深度集成，可以很好地支持基于以太网和InfiniBand的RDMA。
（责任编辑：fqj）

打开APP阅读更多精彩内容