可商用多语言聊天LLM开源，性能直逼GPT-4

OSC开源社区 2023-05-25 972

描述

SambaNova 与 Together 两家公司合作开源了可商用的 BLOOMChat，一个 1760 亿参数的多语言聊天大语言模型 (LLM)。由 BLOOM (176B) 在助理式的对话数据集上进行指导调整，并支持多种语言的对话、问题回答和生成性答案。

根据介绍，BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat；其建立在 BigScience 组织的 BLOOM 之上，并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。目前，BLOOM 已经是最大的多语言开放模型，在 46 种语言上进行了训练。

在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中，GPT-4 的胜率为 54.75%，BLOOMChat 的胜率为 45.25%，稍弱于 GPT-4。但与其它 4 种主流的开源聊天 LLM 相比，BLOOMChat 在 65.92% 的时间内表现更优。且在使用 BLOOMChat 进行跨语言 NLP 任务的初步研究中，BLOOMChat 在 WMT 翻译基准中的表现要优于其他 BLOOM 变体和主流开源聊天模型。

“我们确实想指出，与我们比较的这些模型中，有些并不适合多语言环境。但由于开源社区中没有替代品，所以才有了现在的比较。我们的研究结果表明，使用正确的技术，可以在开源 LLM 之上构建以实现强大的多语言聊天功能。我们希望我们的研究结果和 BLOOMChat checkpoint 的发布能够为开源社区的持续讨论做出贡献，并激发 LLM 领域的进一步发展。”

项目团队使用定性和定量措施来评估了 BLOOMChat 的多语言聊天能力以及跨语言任务能力。共做了 3 种不同场景的实验测评，评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。

实验一：人类偏好排序

旨在将 BLOOMChat 模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了 “OpenAssistant Conversations” 附录 E 中的 22 个英文问题作为基准。首先让一些人类志愿者将这 22 个英文问题手动翻译成他们各自的母语；然后让另一组不同的志愿者，在匿名的前提下评价每个模型所给出的回答。

将 BLOOMChat 与 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三种开源模型进行了比较：