日本团队发布在富岳超算上训练的Fugaku-LLM大模型

微云疏影 2024-05-11 1187

　　5月11日讯，多方企业与机构联手的日本研究小组昨日公布了Fugaku-LLM大型模型。该模型最大特点在于在Arm架构超算“富岳”上完成了训练。

　　自2023年5月起，Fugaku-LLM模型的开发工作开始展开，最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所（简称理研）。

　　至同年8月，又有三家合作伙伴——名古屋大学、CyberAgent（同时也是游戏巨头Cygames的母公司）及HPC-AI领域创新企业Kotoba Technologies加入项目。

　　研究团队在昨日的新闻发布会上表示，他们成功利用富岳超算的强大性能，使矩阵乘法运算速度提升6倍，通信速度提高3倍，从而证明大型纯CPU超算同样适用于大模型训练。

　　Fugaku-LLM模型参数规模达13B，成为日本国内最大的大型语言模型。

　　该模型采用13824个富岳超算节点，在3800亿个Token上进行训练，其中60%为日语数据，其余40%涵盖英语、数学、代码等内容。

　　研究团队表示，Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

　　在测试结果方面，该模型在日语MT-Bench模型基准测试中的平均得分高达5.5，位列基于日本语料资源的开放模型之首；在人文社科类别的测试中更获得了9.18的高分。

　　现如今，Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布，外部研究人员和工程师可在遵循许可协议的基础上，将该模型应用于学术和商业领域。

打开APP阅读更多精彩内容