如何提高深度神经网络的表现性能

智能计算芯世界 2023-05-15 1128

描述

机器学习是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科，广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。深度学习是机器学习的子集，主要由人工神经网络组成。与传统算法及中小型神经网络相比，大规模的神经网络及海量的数据支撑将有效提高深度神经网络的表现性能。

Transformer模型是一种非串行的神经网络架构，最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基础，能够并行处理整个文本序列，同时引入“注意机制”（Attention），使其能够在文本序列中正向和反向地跟踪单词之间的关系，适合在大规模分布式集群中进行训练，因此具有能够并行运算、关注上下文信息、表达能力强等优势。Transformer模型以词嵌入向量叠加位置编码作为输入，使得输入序列具有位置上的关联信息。

编码器（Encoder）由Self-Attention（自注意力层）和 Feed Forward Network（前馈网络）两个子层组成，Attention使得模型不仅关注当前位置的词语，同时能够关注上下文的词语。

解码器（Decoder）通过Encoder-DecoderAttention层，用于解码时对于输入端编码信息的关注；利用掩码（Mask）机制，对序列中每一位置根据之前位置的输出结果循环解码得到当前位置的输出结果。

以GPT-3为例，GPT-3参数量达1750亿个，训练样本token数达3000亿个。考虑采用精度为32位的单精度浮点数数据来训练模型及进行谷歌级访问量推理，假设GPT-3模型每次训练时间要求在30天完成，对应GPT-3所需运算次数为3.15*10^23FLOPs，所需算力为121.528PFLOPS，以A100PCle芯片为例，训练阶段需要新增A100 GPU芯片1558颗，对应DGX A100服务器195台。

假设推理阶段按谷歌每日搜索量35亿次进行估计，则每日GPT-3需推理token数达7.9万亿个，所需运算次数为4.76*10^24FLOPs，所需算力为55EFLOPs，则推理阶段需要新增A100 GPU芯片70.6万颗，对应DGX A100服务器8.8万台。

机器学习