天数智芯在今年上半年搭建了天垓100(BI-V100)算力集群支持智源研究院开展70亿参数大模型训练。在此基础上,双方进一步深化合作。天数智芯首先搭建了128节点的BI-V100集群环境,支持智源研究院开展Aquila2-70B-Expr完整训练。训练到20万步,导出模型并完成总计11项性能指标的评估,涉及常识推断、多任务语言理解、真实性回答等场景,将基线实验和对比实验送到真实数据集上进行评测,计算差异在0.28%,在精度上与国际主流集群训练的权重文件水平相当。同时,天数智芯基于新一代产品天垓150(BI-V150)搭建了16节点集群环境,用于智源研究院混合并行训练研究。智源研究院利用120节点BI-V100集群加上8节点BI-V150集群进行Aquila2-70B-Expr大模型混合训练,混合集群性能达到上界(理想合池理论峰值)的85.3%。测试结果显示,在天数智芯产品上异构训练,对模型性能影响甚微。
这一成果极具商业价值和应用前景,有助于解决智算中心换代升级、增容后新旧计算卡并用难题,为智算中心高效运行提供了新方案。 END
原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚
文章出处:【微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。
全部0条评论
快来发表一下你的评论吧 !