【核芯观察】是电子发烧友编辑部出品的深度系列专栏,目的是用最直观的方式令读者尽快理解电子产业架构,理清上、中、下游的各个环节,同时迅速了解各大细分环节中的行业现状。以ChatGPT为首的AI大模型在今年以来可以说是最热的赛道,而AI大模型对算力的需求爆发,也带动了AI服务器中各种类型的芯片需求,所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链,梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。
ChatGPT带火AI大模型行业
ChatGPT是OpenAI公司在2022年11月底发布的一款聊天机器人,属于AICG(生成式人工智能技术)之一,ChatGPT能够通过理解和学习人类语言来进行对话,还能根据聊天上下文的信息进行理解互动,完成包括撰写邮件、文案、翻译、生成代码等多种任务。
与以往的决策式AI相比,生成式AI不仅仅局限于通过简单分析现有数据来进行决策,而是对现有数据进行学习后,根据已有知识进行模仿来生成全新的内容。
ChatGPT可以理解成是利用GPT模型并结合多种技术,包括多轮对话建模、对话行为分类、情感分析、GPT全称是Generative Pre-trained Transformer,顾名思义这是一种生成式预训练语言模型,ChatGPT目前是基于GPT-3.5和GPT-4这两个大语言模型构建的。GPT的核心结构是Transformer模型架构,可以说ChatGPT是基于Transformer的文本生成能力,在大规模的对话语料上进行了无监督预训练,然后在特定的对话任务上进行有监督微调,使得其可以自然地生成文本或者回答问题,适用于自然语言生成的任务,因此在聊天互动上会有较好的表现。
在实际用户体验中,ChatGPT展现出极高的对话质量和实用性,尽管仍会出现一些事实性错误,但超强的对话能力让它迅速出圈,仅仅在上线两个月后活跃用户数就突破一亿,成为史上增速最快的消费级应用。
与此同时,ChatGPT的爆火,也引爆了AI大模型创业的新一轮热潮,除了各大互联网巨头、高校团队之外,王小川、李开复、贾扬清等业界明星创业者也纷纷加入AI大模型创业的赛道,开发类ChatGPT的产品。
但这种AI大模型背后的技术底层并不简单,它需要海量的数据、复杂的算法和强大的算力来支撑。其中,算力是人工智能发展最大的瓶颈,也是当前AI大模型核心竞争力的关键因素。目前,AI大模型主要依赖于GPU或CPU+FPGA、ASIC等算力芯片来实现其高效运行。这些算力芯片是针对人工智能算法做了特殊加速设计的芯片,也被称为AI加速器或计算卡,是AI的算力基础。
所以,在当前AI大模型行业的热潮下,算力需求暴增带来的是相关芯片需求的大幅上涨。有机构预计,AI训练对于算力的需求未来将会以每3.5个月翻一番的速度增长。因此我们在这期核芯观察中,会着重关注ChatGPT火热背后的算力芯片产业链。
大模型时代需要更多芯片算力
目前市面上主要的AICG预训练大模型主要有OpenAI的GPT系列、谷歌的PaLM、Meta的LLaMA、百度的文心系列、腾讯的混元系列、阿里巴巴的通义千问、华为的盘古大模型等等
根据OpenAI公布的数据,GPT模型从2018年6月首次发布到2023年5月,已经迭代了四格大版本,参数量从GPT-1的1.17亿到GPT-3的1750亿到GPT-3的1750亿。而最新的GPT-4虽然没有公布训练参数量,不过根据OpenAI的说法,GPT-4主要的升级是多模态能力方面,会使用到更多计算资源。
近期谷歌发布的PaLM2的升级也类似,在参数量与PaLM2基本同是5400亿的情况下大幅提升多模态能力,也就是可以同时处理文本、图像、音频等多种内容。
而百度的类ChatGPT模型文心一言,是基于百度文心大模型打造,2021年12月百度推出的文心ERNIE 3.0 Titan参数量规模高达2600亿。
当然由于大模型类型的不同比如NLP、CV,也有融合了NLP和CV的多模态,所以参数量也不直接代表大模型的实际能力。
参数量越高,意味着消耗的算力资源越多。以ChatGPT为例,由于ChatGPT与13亿参数的InstructGPT是一对姐妹模型,仅在采集数据方式上有差异。参数规模为13.2亿的GPT-3 XL与ChatGPT接近,而OpenAI公开的数据中,GPT-3 XL训练所需算力是27.5PFlop/s-day(1PetaFLOP/s的效率运行27.5天),那么我们可以大致认为ChatGPT训练一次所需算力同样是需要1PetaFLOP/s的效率运行27.5天。
如果使用英伟达V100 GPU,按照半精度(FP16)算力125TFLOPS计算,ChatGPT至少需要一块V100 GPU不间断满载运行220天才能完成一次训练;如使用SXM版本的A100,按照半精度算力624TFLOPS计算,那么ChatGPT进行一次训练也需要一块A100运行44天左右。
目前SXM版本最高规格显存的V100和A100单卡市场售价大约分别为2.5万元和9万元左右。
当然由于技术形式的不同,实际训练中的效率不会这么高,而这样的训练成本仅是13亿参数量的模型。如今AI大模型动辄千亿,甚至万亿的参数量规模,比如有机构报告推算GPT-4模型参数量达到1万亿,那么在暴增的数据量下,为了缩短训练时间,对于AI服务器等算力硬件的需求量毫无疑问会随着模型训练数据量增加而提高。
另一方面,在ChatGPT这类聊天应用中,巨大的用户访问量也给算力带来巨大的性能和成本压力。根据Similarweb数据,今年2月OpenAI访问量已经达到11亿次,而根据Fortune的数据,用户每次与ChatGPT互动产生的云算力成本约0.01美元,如果往低了算,每次访问网站仅进行一次互动,那么单月仅算力成本也要1100万美元。
未来在包括类ChatGPT在内的AI大模型进入到更多行业应用之后,市场需求持续开拓,AI服务器市场规模将有很大的市场空间,相关下游应用对于算力硬件的需求将会迎来新一轮爆发。
IDC的数据显示,2021年,全球AI服务器市场规模为156亿美元,同比增长39.1%;预计到2025年全球AI服务器市场规模将会达到317.9亿美元,复合年均增长率为19%。根据集邦咨询数据,截至2022年,预估搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,而2023年,在ChatGPT相关应用加持下,预估出货量年同比增长8%,2022~2026年CAGR将达10.8%。
AI大模型背后用到哪些芯片?
在AI大模型领域,主要包括训练(training)和推理(inference)两个步骤,训练即前面提到的通过大量经过标记的数据来训练能够完成特定功能的模型,而推断即利用经过训练后的模型,根据新导入的数据来推断出结论。
用于人工智能的服务器目前主要用到CPU搭配GPU、FPGA、AI ASIC这几种加速芯片,根据不同的计算任务选择不同的芯片搭配。对于大模型训练而言,传统的CPU受限于单行运算,主要在逻辑控制、串行运算等方面有优势,不擅长复杂算法运算和处理并行重复的操作。所以CPU在深度学习中会被用于推理或预测等领域,而在服务器中,CPU可以负责整个系统的管理和控制,是服务器的基础硬件,而GPU、FPGA、ASIC等加速芯片则负责AI计算任务的加速,两者相互协作,共同提升整个系统的性能。按照IDC的数据CPU在基础型、高性能型、推理型、训练型服务器中成本占比分别为32%、23.3%、25%、9.8%。
GPU则是目前AI服务器最常见的芯片,它提供多核并行计算的基础结构,可以支撑大算力需求,并且拥有高浮点运算能力,在处理图形数据和复杂算法方面与CPU相比有明显优势,满足深度学习领域的大量数据运算需求。不过GPU管理控制能力弱,需要配合CPU使用,功耗也较高。
FPGA也就是现场可编程门阵列,特点是可以无限次编程、灵活性较高,延时低,实时性强,可以同时进行数据并行和任务并行计算,在处理特定应用时会有明显的效率优势。同时可重复编程为算法功能实现和优化提供较大的修改空间。但与此同时FPGA开发难度大,价格较高,所以应用场景会受到一定限制。
AI用ASIC顾名思义是全定制化的芯片,专为特定应用或实现某种特定功能而专门设计的AI芯片,在处理相应任务时的能耗、效率表现都最好。但ASIC前期研发成本高、时间周期长,并且由于定制化设计,应用场景极为局限。在深度学习算法稳定后,可以通过根据算法需求设计ASIC,提供最高效率的算力硬件,大规模应用下能够大幅降低整体系统成本。
总结一下这四种芯片在AI计算中起到的不同作用:CPU主要用于逻辑判断、任务调度和控制方面;模型训练则往往会使用GPU;FPGA多数在研发阶段、数据中心、AI推理方面;AI用ASIC主要面向使用特定AI算法的应用场景,需要较为成熟的应用支撑其量产。
根据IDC的数据,中国AI芯片市场上目前GPU占比最高为89%,其次是NPU占到9.6%,ASIC和FPGA仅分别占1%和0.4%。其中NPU主要是用在边缘侧。而对于AI服务器的使用领域,按照当前趋势,在市场增长的情况下,服务器用于推理的负载占比会缓慢增加。2021用于推理和训练的占比分别为40.9%和59.1%,IDC预测2025年推理和训练的占比调整为 60.8%和39.2%。
不过随着AI大模型的成熟、算法持续优化、芯片性能的提升等因素变化,未来模型消耗的算力需求、服务器数量需求可能会比预测的数据要低。
下一期内容,我们将会对AI大模型中使用到的CPU、GPU、FPGA、ASIC这些细分领域产业链中做进一步的分析梳理,记得关注我们~