电子说
作者:算力魔方创始人/英特尔创新大使刘力
《AI演进的核心哲学》提到Google在2017年6月的《Attention is All You Need》论文中首次提出了一种全新的神经网络架构Transformer,OpenAI的科学家Alec Radford在读完这篇论文后,使用BooksCorpus数据集(约1GB),并从Transformer中截取了Decoder部分进行了生成式预训练(generative pre-training),然后再针对具体任务使用有标注数据对预训练模型进行监督微调,结果发现模型的性能还不错,在 12 项任务中的 9 项显著超越了针对特定任务设计的竞对模型,达到了当前最佳水平,并于2018年6月发表了文章《Improving Language Understanding by Generative Pre-Training》,标志着GPT系列模型从此诞生了。GPT就是Generative Pre-Training的首字母缩写,GPT-1模型包含1.17亿参数。
链接:
《Attention is All You Need》: https://arxiv.org/pdf/1706.03762 《Improving Language Understanding by Generative Pre-Training》: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
一,GPT-1~GPT-2: 验证性的演进
OpenAI的首席科学家Ilya Sutskever看到GPT-1的结果后,非常兴奋,他认为这是一个非常关键的可以通向AGI(通用人工智能)的技术,从此,OpenAI便在GPT-1基础上开始坚定地执行“Scale Up”战略 -- 通过增加模型参数、训练数据和计算能力,推动 GPT 系列模型和训练范式不断演进。
随后,OpenAI迅速加大了投入开始研发GPT-2。GPT-2的目标是探索更大规模的模型能否在没有任务特定训练数据的情况下,仅通过预训练就能在多种任务上表现出色,即所谓的“零样本”(Zero-shot)能力。为此,OpenAI构建了一个更大、更多样化的WebText数据集(约40GB),用更大算力(多块NVIDIA V100 32GB卡)完成了更大参数模型的预训练。
GPT-2模型参数有4个版本:Small版有1.17亿参数,对应原始的GPT-1;Medium版有3.45亿参数,对应竞品BERT-large;Large版有7.62亿参数;XL版有15亿参数。GPT-2首次系统性展示了无需微调即可适应多任务的能力,在8 个测试数据集中获得了7个当下最优的成果,证明了大规模预训练模型的强大潜力和 “通用语言模型” 在多任务场景中的可行性。
OpenAI在2019年2月发表了文章《Language Models are Unsupervised Multitask Learners》,还开源了GPT-2的代码: https://github.com/openai/gpt-2和部分数据集:https://github.com/openai/gpt-2-output-dataset,成为GPT系列模型中唯一一个开源模型。
链接: 《Language Models are Unsupervised Multitask Learners》: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
二,GPT3:更加激进的演进
GPT-2验证了“Scale Up”战略的有效性后,OpenAI开始更加激进的Scale Up。GPT-3的参数量达到了惊人的1750亿,比GPT-2的XL版本提升了100多倍。预训练数据集也更为庞大,混合了包括Common Crawl(经过滤)、WebText2、Books1、Books2和Wikipedia在内的的数据集(约300B Tokens)。
GPT-3不仅在零样本任务上表现出色,更重要的是展示了强大的“少样本”(Few-shot)甚至“单样本”(One-shot)学习能力,这意味着只需要在提示词(Prompt)中给出少量任务示例,模型就能理解并执行新任务,而无需重新训练或微调模型参数。这种“上下文学习”(In-context Learning)能力是GPT-3的核心突破,它使得模型更加通用和灵活,能够处理翻译、问答、写代码、作诗、进行简单推理等各种任务,极大地推动了Decoder-Only架构的大语言模型的研究和应用浪潮。
三,规模定律与能力涌现
在GPT系列模型演进的过程中,OpenAI在2020年1月发表了文章《Scaling Laws for Neural Language Models》,首次系统性提出的语言模型的“规模定律(Scaling Laws)”,揭示了模型性能与模型参数量、训练数据量和计算资源规模呈指数级线性相关。同年5月,OpenAI发表了文章《Language Models are Few-Shot Learners》介绍GPT-3,让科技界都开始相信在Decoder-Only架构上是能“Scale-Up”的。
随后,Google也加入了Decoder-Only架构的阵营,在2022年4月发布了5400亿参数的PaLM模型,并证明了随着参数提升,Decoder-Only架构的模型能力在大多数任务场景中都高于前期最优方法。同年6月,Google发表了文章《Emergent Abilities of Large Language Models》,首次系统性地提出了大语言模型的“能力涌现(Emergent Abilities)”现象,即大语言模型在参数规模突破临界阈值后,突现的不可预测的新能力,这类能力在小规模模型上无法出现。
链接: 《Scaling Laws for Neural Language Models》: https://arxiv.org/pdf/2001.08361 《Language Models are Few-Shot Learners》: https://arxiv.org/pdf/2005.14165
四,启示1:科研团队可以从一个小规模参数的模型开始
GPT系列模型的演进,以及科技界在Decoder-Only架构上的探索,再次证明了Richard S. Sutton提出的哲学思想:使用通用方法,然后借助计算能力Scale Up。由于训练大规模参数的模型成本非常高,例如,公开资料显示Llama3 405B参数模型的训练成本约为6000万美金,所以科研团队可以先在一个小规模参数的模型上验证其能力,然后再Scale up。
DeepSeek团队也受此启发,在2024年初,先从16B参数规模开始,发布了DeepSeek-MoE v1;接着在2024年中,把参数规模扩展至145B,发布了DeepSeek-MoE v2; 到DeepSeek-MoE v3时,参数规模到671B。DeepSeek的Scale Up的成功,也再次证明了《AI演进的核心哲学》。
五,启示2:个人初学者可以把GPT-2作为学习起点
从学习的角度,对个人初学者来说,本文认为GPT-2是最佳的Decoder-Only架构模型的学习起点:
1. GPT-2算是GPT系列模型真正的起点(GPT-1可以算Decoder-Only架构的技术验证PoC)。
2. GPT-2的模型参数规模适中,能让读者成功实现完整的预训练过程,且花费不大。
3. GPT-2是GPT系列中唯一的开源模型,有标准代码实现可以借鉴。
4. 通过动手编写GPT-2模型并完成预训练,可以完整学到Transformer架构的大语言模型的核心知识
若你对更多的大语言模型的演进感兴趣,可以进一步阅读《A Survey of Large Language Models》。
链接:
《A Survey of Large Language Models》: https://arxiv.org/pdf/2303.18223
如果你有更好的文章,欢迎投稿!
稿件接收邮箱:nami.liu@pasuntech.com
更多精彩内容请,关注“算力魔方®”!
审核编辑 黄宇
全部0条评论
快来发表一下你的评论吧 !