大模型运行成本高昂,准入壁垒较高。大模型对于训练时间和参数量都有高要求,以 OpenAICEO Altman 在推特上回复马斯克的留言可知,ChatGPT 平均一次聊天成本为几美分。根据Similar Web 数据,2023 年1月 27 日至 2 月 3 日 ChatGPT 日活跃用户达 2500 万人。中性假设下,以平均单人单日对话 7 次,每次 3 美分成本进行测算,对应一年支出对话成本约为19.2 亿美元。根据英伟达官网,A100 作为 DGX A100 系统的一部分进行销售,该系统搭载 8个 A100 GPU,一个由 5 台 DGX A100 系统组成的机架可替代一个包括 AI 训练和推理基础设施的数据中心,且功耗仅为其 1/20,成本为其 1/10,系统售价 19.9 万美元。因此,在中性假设条件下,考虑到服务器约占数据中心成本的 70%(中商产业研究院),则 ChatGPT 运营一年将需要 6741 个 DGX A100 系统用于支撑访问量。
ChatGPT带动大模型竞品发布,海内外科技巨头先后加码AI布局。
1)谷歌向AI公司Anthropic投资近 4 亿美元,后者正在测试生成式 AI 工具 Claude,且谷歌也推出对标 ChatGPT 的聊天机器人 Bard。
2)微软以 100 亿美元投资 ChatGPT 的开发商 OpenAI,并获得其 49%股权。2023年 2 月,微软发布基于 ChatGPT 的 new Bing。
3)亚马逊云服务 AWS 宣布与 AI 公司 HuggingFace 开展合作,Hugging Face 将在 AWS 上开发针对 ChatGPT 的开源竞品,构建开源语言模型的下个版本 Bloom。
4)阿里达摩院正研发类 ChatGPT 的对话机器人,目前已处于内测阶段。
5)百度开发类 ChatGPT 项目“文心一言”(ERINE Bot)。
6)京东推出产业版 ChatJD。
基于昆仑芯+飞桨+文心大模型 AI 底座,百度推出“文心一言”拉开国产生成式 AI 序幕。2023年 3 月 16 日,百度正式推出国内首款生成式 AI 产品“文心一言”,可支持文学创作、文案创作、数理推算、多模态生成等功能,目前已有多家厂商宣布接入。“文心一言”基于全栈自研的 AI 基础设施进行学习和训练:
昆仑芯 2 代 AI 芯片:“文心一言”的芯片层核心能力,采用自研 XPU-R 架构,通用性和性能显著提升;256 TOPS@INT8 和 128 TFLOPS@FP16 的算力水平,较一代提升 2-3 倍,保障“文心一言”算力需求;采用 7nm 先进工艺,GDDR6 高速显存,支持虚拟化,芯片间互联和视频编解码等功能。
飞桨深度学习平台:“文心一言”的框架层核心能力,系业内首个动静统一的框架、首个通用异构参数服务器架构,支持端边云多硬件和多操作系统,为文心大模型提供有效、快捷、完整的训练框架。
文心知识增强大模型:“文心一言”的模型层核心能力,该产品主要采用 ERNIE 系列文心NLP 模型,拥有千亿参数级别的 ERNIE 3.0 Zeus 为该系列最新模型,进一步提升了模型对于不同下游任务的建模能力,大大拓宽了“文心一言”的应用场景。
以 GPT-3 为例测算:大算力需求驱动 AI 硬件市场空间提升
GPT-3(Generative Pre-trained Transformer 是 GPT-3.5 的上一代语言模型,目前一般所说的 GPT-3 即为拥有 1750 亿参数的最大 GPT-3 模型,OpenAI 在公开发表的论文《Language Models are Few-Shot Learners》中对 GPT-3 模型进行了详细分析。对于以 ChatGPT 为例的大模型算力需求,根据测算,我们预计用于高端 GPGPU 显卡的训练及推理部分市场空间合计约 145.32 亿元,其中训练市场规模为 27.84 亿元,推理市场规模为 117.48 亿元。
英伟达引领硬件端产品升级,国产 GPU 静待花开
大 GPU 优势在于通过并行计算实现大量重复性计算。GPGPU(General Purpose GPU)即通用GPU,能够帮助 CPU 进行非图形相关程序的运算。在类似的价格和功率范围内,GPU 能提供比CPU 高得多的指令吞吐量和内存带宽。
GPT-4 模型算力需求扩增,架构升级降本增效未来可期
根据 OpenAI 官网显示,目前 GPT-4 每 4 小时只能处理 100 条消息,且并没有开放图片识别功能。大模型升级带来的运算需求逐渐加码,且可推测目前算力已处于供不应求状态。
多模态拓展,图片识别算力需求升级十倍以上。关于从图片到 token 的转换方式,OpenAI 未公布 GPT-4 的模型参数,假设 GPT-4 处理图片视觉任务使用 VisionTransformer 模型(ViT),则输入图片尺寸必须为 224×224(ViT-B/16 版本)。根据 2021 年 ICLR 论文,模型原理大致为把一张图片分成 nxn 个 Patch,每一个 Patch 作为一个 Token。即把一张 224×224×3 的图片,切分为 16×16 大小的 Patch,每个 Patch 是三通道小图片,得到 16×16×3=768 个 token并作为向量输入。相较之下,根据前文 GPT-3 部分假设,假设每个文字问题 50-100 词,即67-133token。我们可以粗略推论,图像识别的所需算力是文字推理部分所需算力的十倍以上级别。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !