Attention注意力机制与Transformer是大语言模型的基石。
1)Attention机制在并行计算(效率更高)以及解决长距离信息依赖的能力(效果更好)上优于过去的神经网络模型。
2)Transformer模型没有使用传统的CNN和RNN结构,其完全是由Attention机制组成,其中Self-Attention(自注意力)是Transformer的核心。
3)OpenAI的GPT模型和Google的BERT模型虽然都是基于Transformer所构建,但GPT模型仅使用了解码器的部分,而BERT仅使用了编码器的部分,二者在技术路线上也走向了两条不同的道路。
GPT 模型的持续进化与能力突变:从 CPT-1 到 CPT-4。
1)GPT-1:有监督学习和无监督学习的结合,模型的语言泛化 能力不够,更接近于处理特定语言任务的专家模型,而非通用 的语言模型;
2)GPT-2:舍弃了模型微调,让多个不同的任务在同一个模型 上学习,构建了换一个泛化能力更强的语言模型,开始让语言 模型的通用性得到了更加充分的展现;
3)GPT-3:在训练方法上则采取了 In-context 学习,参数量相 较于 GPT-2 提升了两个数量级,达到了 1750 亿,数据集在处理 前容量达到了 45TB,是真正意义上的超大语言模型。
4)ChatGPT:引入人类反馈的强化学习(RLHF)及近端策略优 化算法(PPO)等新的训练方式后,语言生成能力大幅提升,并 且涌现出了思维链及逻辑推理等多种能力。
5)GPT-4:在推理能力、文本生成能力、对话能力等方面有了 进一步提升的同时,实现了从大语言模型向多模态模型进化的 第一步。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !