日本超算富岳助力构建大规模语言模型Fugaku-LLM

微云疏影 2024-05-11 1619

　　日本多企业联合科研组于昨日宣布推出Fugaku-LLM大模型，此模型基于Arm架构的“富岳”超级计算机进行培训，呈现出显著特性。

　　Fugaku-LLM模型项目自2023年5月起启动，初始参加方包括富士通、东京工业大学、日本东北大学及日本理化学研究所（简称理研）。至同年8月，又有三家合作伙伴——名古屋大学、CyberAgent（Cygames母公司）以及HPC-AI领域创新企业Kotoba Technologies加入。

　　在昨日公布的新闻稿中，研究团队表示他们成功发掘了富岳超级计算机的潜能，使矩阵乘法运算速度提升六倍，通信速度提高三倍，从而证实大型纯CPU超级计算机同样适用于大模型训练。

　　Fugaku-LLM模型参数规模达13B，成为日本国内最大的大型语言模型。该模型利用13824个富岳超级计算机节点，在3800亿个Token上进行训练，其中60%为日语数据，其余40%涵盖英语、数学、代码等内容。

　　研究团队表示，Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

　　在测试结果方面，该模型在日语MT-Bench模型基准测试中的平均得分高达5.5，位列基于日本语料资源的开放模型之首；同时，在人文社科类别的测试中获得9.18的高分。

　　目前，Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布，外部研究人员和工程师可以在遵循许可协议的前提下，将该模型应用于学术和商业领域。

打开APP阅读更多精彩内容