Dolly 2.0发布，首个真正开放、可商用的指令调优LLM

OSC开源社区 2023-04-14 2327

描述

Databricks 发布了 Dolly 2.0，这是该公司于两周前发布的一种训练成本不到 30 美元，类似 ChatGPT 的大型语言模型（LLM） Dolly 的改进版本。公告称，Dolly 2.0 是第一个开源的指令跟随型语言模型，它在人类生成的指令数据集上进行了微调，可用于研究和商业用途。

根据介绍，Dolly 1.0 使用了斯坦福大学 Alpaca 团队使用 OpenAI API 创建的数据集进行训练；该数据集包含 ChatGPT 的输出，而其服务条款试图阻止任何人创建与 OpenAI 竞争的模型。因此，Dolly 1.0 并不能用于商业用途。且据已知信息，目前所有现有的知名指令跟随模型（Alpaca， Koala， GPT4All， Vicuna）都受到此限制，禁止商业使用。为了解决这个难题，Databricks 于是决定创建一个没有商业用途限制的新数据集。

数据集

Dolly 2.0 是一个基于 EleutherAI pythia 模型系列的 12B 参数语言模型，并在透明且免费提供的数据集上进行了微调；该数据集称为 databricks-dolly-15k，也已开源发布。Databricks 表示，他们正在开源整个 Dolly 2.0，包括训练代码、数据集和模型权重，所有这些都适合商业使用。这意味着任何组织都可以创建、拥有和定制强大的 LLM，这些 LLM 可以与人们交谈，而无需支付 API 访问费用或与第三方共享数据。

databricks-dolly-15k 包含来自数千名 Databricks 员工的 15，000 个高质量的人工生成的提示 / 响应对，专为指令调优大型语言模型而设计。且 databricks-dolly-15k 根据（Creative Commons Attribution-ShareAlike 3.0 Unported License）的许可条款，任何人都可以出于任何目的使用、修改或扩展此数据集，包括商业应用程序。

Databricks 称这是 “第一个开源的、人工生成的指令语料库，专门设计用于让大型语言能够展示 ChatGPT 的神奇交互性”。并补充到，虽然 databricks-dolly-15k 比训练 Dolly 1.0 的数据集 Alpaca 小得多，但基于 EleutherAI 的 pythia-12b 生成的 Dolly 2.0 模型表现出高质量的指令遵循行为。另一方面， databricks-dolly-15k 是由专业人士生成的、质量很高，并且包含对大多数任务的长篇答案。

Databricks 表示，他们并没有期望 Dolly 在有效性方面达到最先进水平。但确实希望 Dolly 和开源数据集将成为大量后续工作的种子，“这可能有助于引导出更强大的语言模型”。

“我们还认为，偏见、问责制和人工智能安全等重要问题应该由不同利益相关者组成的广泛社区来解决，而不仅仅是少数大公司。开源数据集和模型鼓励评论、研究和创新，这将有助于确保每个人都能从人工智能技术的进步中受益。”

审核编辑：李倩

打开APP阅读更多精彩内容