AI训练势起,GPU要让位了? 电子说
那么训练出这样一个大模型需要怎样的硬件前提?如何以较低的成本完成自己模型训练工作?这些都是不少AI初创企业需要考虑的问题,那么如今市面上有哪些训练芯片是经得起考验的呢?我们先从国外的几款产品开始看起。
英伟达的A100可以说是目前AI训练界的明星产品,A100刚面世之际可以说是世界上最快的深度学习GPU。尽管近来有无数的GPU或其他AI加速器试图在性能上撼动它的地位,但综合实力来看,A100依然稳坐头把交椅。

19年12月,英特尔收购了以色列的Habana Labs,将其旗下的AI加速器产品线纳入囊中。Habana Labs目前推出了用于推理的Goya处理器和用于训练的Gaudi处理器。尽管Habana Labs已经隶属英特尔,但现有的产品仍然基于台积电的16nm制程,传言称其正在开发的Gaudi2将用上台积电的7nm制程。 目前Gaudi已经用于亚马逊云服务AWS的EC2 DL1训练实例中,该实例选用了AWS定制的英特尔第二代Xeon可扩展处理器,最多可配置8个Gaudi处理器,每个处理器配有32GB的HBM内存,400Gbps的网络架构加上100Gbps的互联带宽,并支持4TB的NVMe存储。


最后我们以亚马逊的训练芯片收尾,亚马逊提供的服务器实例可以说是最多样化的,也包含了以上提到的A100和Gaudi。亚马逊作为云服务巨头,早已开始部署自己的服务器芯片生态,不仅在今年推出了第三代Graviton服务器处理器,也正式发布了去年公开的训练芯片Trainium,并推出了基于该芯片的Trn1实例。


GPU一时半会不会跌落AI训练的神坛,但其他训练芯片的推陈出新证明了他们面对A100和Ponte Vecchio这种大规模芯片同样不惧,甚至还有自己独到的优势。
全部0条评论
快来发表一下你的评论吧 !