请问一下DSP数学能否在AI领域战胜GPU呢?

描述

AI芯片初创公司Lemurian Labs发明了一种专为AI加速设计的新型对数数字格式,并正在构建一种芯片,利用它为数据中心AI工作负载服务。  

Lemurian的CEO Jay Dawani说:“2018年,我正在为机器人训练模型,部分是卷积,部分是Transformer,部分是强化学习。在1万个Nvidia V100 GPU上训练这个模型需要6个月时间……模型呈指数级增长,但很少有人有足够的算力来尝试训练,很多想法就这样被放弃了。我试图为那些有伟大想法但却苦于没有算力的普通的ML工程师构建模型。”  

对Lemurian首款芯片的模拟显示,根据H100最新的MLPerf推理基准测试结果,Lemurian的新数字系统与专门设计的芯片相结合,其性能将优于Nvidia的H100。在离线模式下,Lemurian芯片在MLPerf版本的GPT-J中每个芯片每秒可处理17.54次推理(Nvidia H100在离线模式下每秒可处理13.07次推理)。Dawani说,Lemurian的模拟结果可能在真实芯片性能的10%以内,但他的团队打算今后从软件中榨取更多性能。他说,软件优化加上稀疏性可以将性能再提高3-5倍。 

对数数字系统‍‍

Lemurian的秘诀在于该公司提出的新数字格式,称之为PAL(parallel adaptive logarithms)。  

Dawani说:“作为一个行业,我们开始急于采用8位整数量化,因为从硬件的角度来看,这是我们所拥有的最有效的东西。但从来没有软件工程师说过我想要8位整数!”  

对于今天的LLM推理而言,INT8的精度已被证明是不够的,业界已转向FP8。但Dawani解释说,AI工作负载的性质意味着数字经常处于亚正常范围(接近零的区域),FP8可以表示的数字较少,因此精度较低。FP8在亚正常范围内的覆盖率存在差距,这也是许多训练方案需要BF16和FP32等更高精度数据类型的原因。  

AI芯片

比较各种数字格式的覆盖范围。与CFP8(configurable floating point 8)、INT8(integer 8)和现有LNS8(logarithmic number system 8)相比,Lemurian的8位对数数据类型PAL8在亚正常范围的覆盖率更高。  

Dawani的联合创始人Vassil Dimitrov提出了一个想法,即通过使用多基数和多指数来扩展现有的LNS(logarithmic number system),该系统已在DSP中使用了几十年。  

Dawani说:“我们交错表示多个指数,以重现浮点的精度和范围。这样就能提供更好的覆盖范围……它自然而然地形成了一个锥形轮廓,在重要的地方,即在亚正常范围内,具有非常高的精度带。”   这个精度带可以进行偏置,以覆盖所需的区域,这与浮点运算的原理类似,但Dawani说,它允许对偏置进行比浮点运算更精细的控制。  

Lemurian开发了从PAL2到PAL64的PAL格式,其中14位格式与BF16相当。与FP8相比,PAL8的精度提高了约一个比特,大小约为INT8的1.2倍。Dawani希望其它公司也能采用这些格式。  

他说:“我希望更多的人使用它,因为我认为是时候摆脱浮点运算了。PAL可以应用于目前浮点运算的任何应用,从DSP到HPC以及两者之间,而不仅仅是AI,尽管这是我们目前的重点。我们更有可能与其它为这些应用构建芯片的公司合作,帮助他们采用我们的格式。”  

对数加法器‍‍

由于对数加法器简化了乘法运算,因此在大部分为乘法运算的DSP工作负载中,对数加法器已使用了很长时间。LNS表示的两个数的乘法就是这两个对数的加法。然而,将两个LNS数字相加却比较困难。DSP传统上使用LUT (large lookup table) 来实现加法运算,虽然效率相对较低,但如果所需的大部分运算都是乘法运算,这种方法已经足够好了。  

对于AI工作负载来说,矩阵乘法需要乘法和加法。Dawani说,Lemurian的秘诀之一就是“在硬件上解决了对数加法”。  

他说:“我们完全摒弃了LUT,创建了一个纯对数加法器。我们有一个比浮点精确得多的精确加法器。我们仍在进行更多优化,看看能否使它更便宜、更快速。它的PPA(power, performance, area)已经比FP8高出两倍多。”   Lemurian已经为这款加法器申请了多项专利。  

他说:“DSP界以研究工作负载并从数值上理解它在寻找什么著称,然后加以利用并将其转化为芯片。这与我们正在做的事没有什么不同。我们并没有构建一个只做一件事的ASIC,而是研究了整个神经网络空间的数值,并构建了一个具有适度灵活性的特定领域架构。”  

AI芯片

Lemurian数据流架构的高级视图。该芯片是围绕该公司的对数数字系统设计的。  

软件堆栈‍‍

以高效的方式实现PAL格式需要硬件和软件。

Dawani说:“我们花了很多心思去思考如何让硬件更容易编程,因为除非你能首先提高工程师的生产力,否则任何架构都不会成功。我宁愿有一个糟糕的硬件架构和一个优秀的软件堆栈,而不是相反。”

他说,Lemurian在开始考虑硬件架构之前,就已经构建了大约40%的编译器。如今,Lemurian的软件堆栈已经开始运行,Dawani希望保持它的完全开放性,这样用户就可以编写自己的内核和融合程序。

软件堆栈包括Lemurian的混合精度对数量化器Paladynn,它可以将浮点和整数工作负载映射到PAL格式,同时保持精度。

他说:“我们采用了神经架构搜索中的许多想法,并将其应用于量化,因为我们想让这部分变得简单。”

Dawani说,虽然卷积神经网络的量化相对容易,但transformer却并非如此。激活函数中存在异常值,需要更高的精度,因此transformer总体上可能需要更复杂的混合精度方法。不过,Dawani说,他正在关注多项研究工作,这些工作表明,到Lemurian的芯片上市时,transformer可能就不再流行了。

未来的AI工作负载可能会遵循Google的Gemini等公司设定的路径,即运行非确定的步数。他说,这打破了大多数硬件和软件堆栈的假设。

他说:“如果你事先不知道你的模型需要运行多少步,你该如何安排它,你需要在多少计算上安排它?你需要的是更动态的东西,这影响了我们的很多想法。”

该芯片将是一款300W的数据中心加速器,配备128GB HBM3,可提供3.5POPS的密集算力(稀疏性将稍后推出)。总体而言,Dawani的目标是打造一款性能优于H100的芯片,并使其价格与Nvidia上一代A100相当。目标应用包括内部AI服务器(任何行业)和一些二级或专业云公司(非超大规模公司)。







审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分