大模型参数达百万亿级别，AI商业化进程加速！

Carol Li 2023-02-26 10228

描述

电子发烧友网报道（文/李弯弯）大模型，又称为预训练模型、基础模型等，大模型通常是在大规模无标注数据上进行训练，学习出一种特征和规则。近期火爆的ChatGPT，便是基于GPT大模型的一个自然语言处理工具。
　　
从参数规模上看，AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段，参数量实现了从亿级到百万亿级的突破。从模态支持上看，AI大模型从支持图片、图像、文本、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。

AI大模型的发展历程

AI大模型的发展，还要从2017年Vaswani等提出Transformer架构说起，Transformer架构的提出奠定了当前大模型领域主流的算法架构基础。

2018年，谷歌提出了大规模预训练语言模型BERT，该模型是基于Transformer的双向深层预训练模型，其参数首次超过3亿规模；同年，OpenAI提出了生成式预训练Transformer模型GPT，大大地推动了自然语言处理领域的发展。此后，基于BERT的改进模型、ELNet、RoBERTa、T5等大量新式预训练语言模型不断涌现，预训练技术在自然语言处理领域蓬勃发展。
　
2019年，OpenAI继续推出15亿参数的GPT-2，能够生成连贯的文本段落，做到初步的阅读理解、机器翻译等。紧接着，英伟达推出了83亿参数的Megatron-LM，谷歌推出了110亿参数的T5，微软推出了170亿参数的图灵Turing-NLG。

2020年，OpenAI推出了超大规模语言训练模型GPT-3，参数达到1750亿，在两年左右的时间实现了模型规模从亿级到上千亿级的突破，并能够实现作诗、聊天、生成代码等功能。此后，微软和英伟达在2020年10月联手发布了5300亿参数的MegatronTuring自然语言生成模型（MT-NLG）。

2021年1月，谷歌推出的Switch Transformer模型以高达1.6万亿的参数量成为史上首个万亿级语言模型；到2022年一大批大模型涌现，比如Stability AI发布的文字到图像的创新模型Diffusion，以及OpenAI推出的ChatGPT。
　　
在国内，大模型研究发展迅速。2021年，商汤发布了书生（INTERN）大模型，拥有100亿的参数量；2021年4月，华为云联合循环智能发布盘古NLP超大规模预训练语言模型，参数规模达1000亿，联合北京大学发布盘古α超大规模预训练模型，参数规模达2000亿。

同年4月，阿里达摩院发布270亿参数的中文预训练语言模型PLUG，联合清华大学发布参数规模达到 1000亿的中文多模态预训练模型M6；7月，百度推出ERNIE 3.0知识增强大模型，参数规模达到百亿；10月，浪潮信息发布约2500亿的超大规模预训练模型“源 1.0”；12月，百度推出ERNIE 3.0 Titan模型，参数规模达2600亿。

2022 年，基于清华大学、阿里达摩院等研究成果以及超算基础实现的“脑级人工智能模型”八卦炉（BAGUALU）完成建立，其模型参数规模突破了174万亿个。可以看到，目前大模型参数规模最高已经达到百万亿级别。

大模型研究的重要意义　　

当前人工智能正处在可以用到好用的落地阶段，但目前仍处于商业落地早期，主要面临着场景需求碎片化、人力研发和应用计算成本高、长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景效果差距大等行业痛点。

大模型具备大规模和预训练的特点，一方面有良好的通用性、泛化性，能够解决传统AI应用中门槛高、部署难的问题，另一方面可以作为技术底座，支撑智能化产品及应用落地。

过去很多年，虽然各大科技公司不断推出较大规模的模型，然而直到去年生成式AI逐渐走向商业化，以及去年底今年初OpenAI推出的ChatGPT爆火，AI大模型才真正迎来发展的转折点。美国国家工程院外籍院士、北京智源人工智能研究院理事张宏江此前表示，ChatGPT和AIGC，技术爆火背后，代表着人工智能（AI）大模型进入一个新的技术范式，也是第三波AI浪潮经过十几年发展之后一个非常重要的拐点。

张宏江认为，它其实代表着从以前各自研发专用小模型到研发超大规模通用智能模型的一个范式转变。这个转变的重要意义在于：通过这种比较先进的算法架构，尽可能多的数据，汇集大量算力，集约化的训练达模式，从而供大量用户使用。

大模型的发展很可能会改变信息产业的格局，改变以前作坊式AI开发模式，把AI应用带入基于互联网、云计算的大规模智能云阶段。

小结

虽然过去十几年人工智能技术发展迅速，然而在近几年却遇到了一些技术瓶颈和商业化难题。而大模型的发展和普及，尤其是通过大模型+微调的新技术开发范式，人工智能将能够更好的在各种场景中实现应用，当然大模型的训练和推理对算力等也提出了很高的要求，因此大模型的研究最终能够如何推进人工智能产业的发展，还需要产业链各环节的共同努力。

打开APP阅读更多精彩内容