NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

描述

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI 训练的数据集。

NVIDIA 于近日发布Nemotron-4 340B。开发者可以使用这组开源模型生成用于训练大语言模型(LLM)的合成数据,训练出的 LLM 可用于医疗、金融、制造、零售等各个行业的商业应用。

高质量的训练数据对于自定义 LLM 的性能、准确性和回答质量来说至关重要,但强大的数据集通常非常昂贵且难以获得。

通过独树一帜的开源模型许可证,Nemotron-4 340B 为开发者提供了一种免费、可扩展的合成数据生成方法,帮助他们构建强大的 LLM。

Nemotron-4 340B 系列包含基础模型、指导模型和奖励模型,由它们组成的流水线能够生成用于训练和完善 LLM 的合成数据。为了能够与NVIDIA NeMo协同工作,这些模型专门进行了优化。NVIDIA NeMo 是一个适用于端到端模型训练的开源框架,涵盖数据管护、定制、评估等步骤。该系列模型还针对开源NVIDIA TensorRT-LLM库的推理进行了优化。

Nemotron-4 340B 现已可以从NVIDIA NGC目录和 Hugging Face 下载。开发者很快就能在 ai.nvidia.com 上访问这些模型,它们将被打包成带有标准应用编程接口的NVIDIA NIM微服务,可在任意位置进行部署。

将 Nemotron 用于生成合成数据

在难以获得大型多样化标记数据集的情况下,这些 LLM 可以帮助开发者生成合成训练数据。

Nemotron-4 340B Instruct 模型可生成各种模拟现实世界数据特征的合成数据,通过提高数据质量,增强自定义 LLM 在各个领域的性能和稳健性。

随后,为了提高 AI 生成数据的质量,开发者可以使用Nemotron-4 340B Reward模型来筛选高质量的回答。Nemotron-4 340B Reward 模型根据五个方面对回答进行评分,这五个方面分别是:有用性、正确性、连贯性、复杂性和冗长性。该模型目前在 AI2 专为评估奖励模型能力、安全性和缺陷而创建的“Hugging Face RewardBench 排行榜”上排名第一。

NVIDIA

在这个合成数据生成流水线中,(1)Nemotron-4 340B Instruct 模型首先生成基于文本的合成输出。然后来到评估模型,

(2)Nemotron-4 340B Reward 模型对生成的文本进行评估,并提供指导反复改进的反馈,确保合成数据准确、相关且符合特定要求。

研究者还可以使用自己的专有数据,并结合随附的HelpSteer2 数据集自定义 Nemotron-4 340B Base 模型,创造出自己的指导或奖励模型。

使用 NeMo 进行微调

并使用 TensorRT-LLM 优化推理

开发者可以使用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 提高其指导和奖励模型的效率,以便生成合成数据并对回答进行评分。

所有 Nemotron-4 340B 模型均使用 TensorRT-LLM 优化,能够利用张量并行性,这是一种模型并行技术,通过将单个权重矩阵分割到多个 GPU 和服务器上,实现大规模的高效推理。

Nemotron-4 340B Base在 9 万亿个 token 上训练而成。可使用 NeMo 框架对它进行自定义,使其适应特定的用例或领域。这一微调过程得益于大量的预训练数据,使模型能够针对特定的下游任务提供更加准确的输出。

NeMo 框架提供多种自定义方法,包括有监督的微调和各种参数高效微调方法,比如低秩自适应(LoRA)。

为了提升模型质量,开发者可以使用NeMo Aligner以及由 Nemotron-4 340B Reward 模型注释的数据集对齐模型。校准是 LLM 训练过程中的一个关键步骤。在该步骤中,模型的行为通过人类反馈强化学习(RLHF)等算法进行微调,以保证其输出结果安全、准确、符合上下文并与其预期目标一致。

寻求企业级支持和生产环境安全性的企业也可以通过NVIDIA AI Enterprise云原生软件平台访问 NeMo 和 TensorRT-LLM。该平台为生成式 AI 基础模型提供更加快速和高效的运行时。

评估模型安全性并开始使用

Nemotron-4 340B Instruct 模型经过包括对抗测试在内的大量安全性评估,其各项风险指标均表现良好。但用户仍应对该模型的输出结果进行仔细评估,确保合成生成的数据适合且安全而准确地用于自己的用例。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分