AI大模型这股东风,RISC-V该如何乘?

电子说

1.3w人已加入

描述

电子发烧友网报道(文/吴子鹏)说起AI大模型的训练和推理,很多人的第一想法肯定是英伟达芯片,那么背后也就是ARM架构。统计数据显示,在AI芯片领域,英伟达一家独占七成市场份额;如果单独看AI大模型训练芯片,正如花旗研究分析师Christopher Danely提到的,英伟达的市场占比超过九成。
 
实际上,即便是谷歌、亚马逊、Meta、IBM及其他一些企业提供的AI芯片,背后的架构也基本是ARM架构。那么,目前同样大火的RISC-V架构是否能够在AI大模型市场捕捉到机会呢?
 

RISC-V在AI大模型领域的尝试

当然,虽然在芯片性能方面还无法和ARM架构芯片正面抗衡,不过RISC-V架构阵营也没有坐以待毙,而是在积极探索进入AI大模型市场的机会,且已经有一些成果。
 
在今年的世界互联网大会乌镇峰会上,希姆计算联合国鑫发布基于RISC-V架构打造的大模型系列一体机,包括2U4卡、4U8卡机,支持部署6B、7B、13B参数规模的大模型。
 
这就是很好的联动,希姆计算成立于2019年4月,成立之初就确立了基于RISC-V指令集设计数据中心高性能芯片的技术路线、由专用计算(DSA,领域专用架构)向通用计算(CPU)逐步演进的发展战略。目前,该公司已经有一款加速卡产品——STCP920。
 
STCP920是希姆计算基于RISC-V架构打造的人工智能计算加速卡,混合支持FP16/INT8数据类型。算力表现为:半精度浮点运算速度(FP16)为128TFLOPS;整数运算速度(INT8)为256 TOPS。内存类型为LPDDR4X,内存带宽为119.4GB/S。
 
国鑫则是中国领先的服务器解决方案供应商,具有全产业链的自主研发能力和生产能力,是目前中国屈指可数的集研发、生产、销售、服务于一体的服务器和存储软硬件厂商之一。目前,该公司在智算中心方面的服务器主要还是基于英特尔和AMD的芯片产品。
 
再看另一个案例,来自芯至科技。该公司今年才开始正式运营,不过却在助推RISC-V进入大模型运算方面做出了突出的成绩。根据该公司官网信息,芯至科技在今年发布了全球首款Risc-V based GPGPU SIMT核——焦山核(Turbocore)V100。
 
焦山核V100全面支持SIMT,支持RV32G指令集,支持Tensor扩展指令集,支持类CUDA编程模型,提供硬件任务调度,指令并行度为32Threads*128。可被用于GPGPU进行AI推理等多种场景,单核性能不低于16T Int8/GHz,预计采用12nm工艺流片,频率将不低于1.2GHZ。
 
芯至科技联合创始人、首席芯片架构师兼副总裁尹文此前表示,AI大模型落地到推理侧的新机会与RISC-V架构创新不谋而合,Scaler小标量+SIMT大算力的指令集/微架构融合将是未来RISC-V发力的重点,能以相对低的成本,为AI推理侧应用提供高效支持。
 
尹文这种“RISC-V可以做线程级并行AI计算”的想法,和英特尔是不谋而合的。英特尔Piuma是一个定制RISC内核的特殊芯片,它的特殊之处在虽然只有8个核心,但是却有528个线程,单核拥有66个线程。另外,Piuma芯片还具有非常恐怖的互联能力,最多可以实现131072个Piuma芯片互连,让一个芯片集群拥有1680万个核心,这会带来非常恐怖的数据并行能力。虽然英特尔没有说这是RISC-V内核,但是技术上是一脉相通的,给行业发展提供了一个全新的思路。
 
另外,我们看一下阿里平头哥,该公司最近连发了三颗RISC-V处理器内核——首次实现AI矩阵扩展的C907、满足Vector1.0标准的C920,以及实时处理器R910。其中,C920已经新增支持Transformer模型,C907首次实现了独立矩阵运算(Matrix)扩展,这些内核都表明商用RISC-V内核确实在向着AI大模型的核心战场进展,满足性能指标只会是时间问题。
 
除了上述提到的,另外国芯科技和上海清华国际创新中心、智绘微电子已经签署了关于开源RISC-V GPGPU合作开发的备忘录,这也是一种积极的探索。从理论上说,RISC-V的Vector扩展支持用GPGPU方式来执行,那么基于RISC-V实现GPGPU就有了可行性。
 

RISC-V在AI大模型领域的挑战

根据此前的报道,在一项专业基准测试中,专注高性能RISC-V芯片的Tenstorrent推出基于自有处理器内核的RISC-V CPU芯片,该芯片的评分领先于英特尔的Sapphire Rapids、英伟达的Grace和AMD的Zen4。这说明,在传统CPU方向上,RISC-V架构已经开始崭露头角,证明了RISC-V架构做高性能芯片的能力,那么在AI大模型方面会遇到哪些挑战呢?
 
在AI大模型这类型应用中,RISC-V架构第一大挑战肯定是内核本身。通过美国对于我国的AI芯片禁令就可以看出,AI芯片做大模型训练是有一定门槛的,低于这个门槛效果就会大打折扣,虽然RISC-V架构已经做了很多尝试,不过总体性能和长期深耕GPU领域的ARM架构肯定没法比。当然,英特尔和芯至科技这类尝试说明,RISC-V架构可以率先攻克大模型推理芯片市场以及终端一体机市场。
 
在性能背后就会牵扯出第二问题——专利。英伟达等芯片厂商以及Arm公司在高性能计算芯片领域储备了大量的专利,为了追求极致的运算性能,很多方式方法都已经被论证过了,并形成了专利,要绕开这些专利限制实现高性能计算芯片,进一步提升了相关厂商的研发难度。
 
第三个问题也是一个老生常谈的问题,那就是生态。AI大模型这类型的应用,无论是训练端还是推理端,都会是一个软硬件结合的系统,尤其是具体到某一个细分领域的推理应用,具有丰富的上层应用,也就需要更高效的软硬件融合。不过,目前对于RISC-V架构而言,很多生态还是荒漠,比如DDK、接口、中间件这些关键的生态工具,基本还没有。
 

小结

还记得之前平头哥的观点:RISC-V将成为AI时代的原生架构,各行业芯片都值得用RISC-V做一次。那么,应用于AI大模型的芯片也是如此。不过,目前应用于这一领域的芯片还在高速地发展,这给RISC-V架构增加了追赶的难度,且生态封闭的问题需要从业者有更大的勇气和决心。目前,RISC-V在AI大模型应用中已经有所尝试,接下来要做到的就是完善产品和生态,没有其他捷径可走。
 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分