对于模型架构,不同的论文有不同的分发,不同的名称。我们不必纠结于称谓,在这里我们延续BigScience的概念来讨论,即:
BigScience有两项重要的结论,但这两项结论是在控制预训练的预算的基础上的,而非控制参数量。如此实验编码器-解码器用了11B参数量,而纯解码器却是4.8B。
来自科学空间的对比实验【https://spaces.ac.cn/archives/9529】更是印证了这一点:
在同等参数量、同等推理成本下,Decoder-only架构很可能是最优选择。
在openAI的实验中,通过控制参数量,分别调整模型形状的三个指标前馈维度比、宽高比、注意力头维度,实验表明,模型形状对性能的依赖非常轻微。
单独研究层数,排除嵌入层的影响,除了一层这种极端情况之外,同样参数下,不同的层数倾向于收敛于同样的损失。
在GPT-3中参数数据比约为1:1.7,而Chinchilla是为1:20。然而GPT-3参数量是Chinchilla的2.5倍,下游任务却大范围地输给了Chinchilla。再看LLaMA就更离谱了约为1:77,只有13B参数量很多任务就超越了GPT-3。这是不是和咱公众号名字很符合:【无数据不智能】,海量高质量数据才是王道。
Model | Parameters | Training Tokens |
---|---|---|
LaMDA (2022) | 137 Billion | 168 Billion |
GPT-3 (2020) | 175 Billion | 300 Billion |
Jurassic (2021) | 178 Billion | 300 Billion |
Gopher (2021) | 280 Billion | 300 Billion |
MT-NLG 530B (2022) | 530 Billion | 270 Billion |
Chinchilla(202) | 70 Billion | 1.4 Trillion |
LLaMA(202) | 13 Billion | 1.0 Trillion |
【Scaling Laws for Neural Language Models】实验中表明batch size和模型大小无关,只和想达到的loss有关(幂次关系),同时也受到噪声数据的影响。
参数量、数据量、训练时长和loss都存在幂指数关系
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !