BF16浮点格式加快AI深度学习

jf_f8pIz0xS 2020-07-03 3990

人工智能

636人已加入

描述

全新的数字格式——‘BF16’，专为人工智能（AI）/深度学习（DL）应用优化发展而来，有时也称为‘BFloat16’或‘Brain Float 16’。它一开始是由Google Brain团队发明，并用于其第三代Tensor Processing Unit （TPU），如今已被Google、英特尔（Intel）、Arm等许多公司的AI加速器广泛采用。

采用16位脑浮点（brain floating point）格式的BF16，主要概念在于透过降低数字的精度，从而减少让张量（tensor）相乘所需的运算资源和功耗。「张量」是数字的三维（3D）矩阵；张量的乘法运算即是AI计算所需的关键数学运算。

如今，大多数的AI训练都使用FP32，即32位浮点数。尽管这表示可以达到非常准确的计算，但需要强大的硬件而且极其耗电。推论一般使用INT8¬¬，即8位整数精度的运算模式，虽然是较低精度的数字系统，但在相同硬件上提供了更高的传输效率，因而能够更省电，只是计算结果（预测）的准确性较低些。

BF16的基本概念是为精度和预测准确性之间的权衡进行优化，从而提高吞吐量。

浮点数字解析

在运算中的二进制数字可以表示为：

尾数x基数指数，基数为2

在FP32浮点格式中，每个数字都表示为：

1位代表符号（+或-），其后为8位指数，接着是23位尾数（总共32位数字）

至于BF16浮点格式，Google Brain团队建议将FP32数字的尾数缩减到7位，以稍降低精度。

因此，BF16数字则可表示为：

1个符号位，然后8个指数位，接着是7个尾数位（共16位数）

浮点数字格式（来源：Google）

由于指数大小相同，这些16位数字提供了Google所追求的更高吞吐量，同时又能保留FP32的近似动态范围（该系统可以代表整个数字范围）。

使用BF16的算法预测准确度相当于FP32——Google解释这是因为神经网络对于指数的大小要比尾数更敏感）。对于大多数应用来说，这已经是可以被接受的折衷方案了。

为什么不使用FP16？

目前普遍用于行动绘图应用中的FP16，同样也是16位浮点数字格式。那么，为什么不直接使用呢？

FP16包括：

1个符号位，5个指数位，然后10个尾数位（共16位数字）

使用这种格式时，由于指数小于FP32，因而动态范围大幅缩减。此外，将FP32数字转换为FP16比起转换为BF16更困难——相较于仅截去尾数，FP16更麻烦，而BF16的操作相对上较简单。

另一个要点是计算所需要的芯片实体面积。由于硬件乘法器的实体尺寸会随着尾数宽度的平方而增加，因此从FP32转换到BF16可以大幅节省芯片面积——这也就是Google之所以为其TPU芯片选择使用BF16。BF16乘法器比FP32乘法器的尺寸更小8倍，而且也只有FP16同类型芯片约一半的尺寸。

还有哪些DL运算格式？

BF16并不是唯一一种被提议用于深度学习的新数字格式。例如，AI软件新创公司Nervana在2017年曾经提出一种称为‘Flexpoint’的格式。其概念是透过结合定点和浮点数字系统的优点，从而减少运算和内存的需求。

定点数（fixed point number）使用固定位数来代表整数和分数（小数点后的部分）——相较于上述的浮点格式，使用定点数字执行运算通常更简单，也更快捷。然而，针对特定的位数，定点数的动态范围比浮点数更小得多。

Flexpoint数字共享相同的指数，让张量更易于相乘（来源：Nervana/NeurIPS）

Flexpoint张量中的所有（浮点）数字都使用相同的指数（不只是相同的指数大小，而且是完全相同的指数值）。张量中的所有数字之间共享指数，从而可以在整个张量中共同分担指数的通讯。

然后就可以让张量相乘作为定点运算，因为每次计算的指数都是相同的——这比起浮点数所需的数学更简单。这些计算足以代表绝大多数的深度学习数学，因此所能节省的资源与功耗都相当可观。然而，管理这些指数极其复杂，而且动态范围（可以表示的数字范围）很低，因为所有的数字都拥有相同的指数。

然而，Flexpoint却从未能起飞，甚至是Nervana在卖给英特尔之前，其自家芯片都一直使用BF16。

打开APP阅读更多精彩内容

BF16浮点格式 加快AI深度学习

描述

BF16浮点格式加快AI深度学习