千亿数据中心市场,正在因AI而改变

描述

在全球范围内,数据科学和人工智能(AI)正在影响着现代数据中心的设计和发展。随着每天数据量的激增,传统的数据中心最终会变得越来越缓慢,致使输出效率低下。将人工智能用于数据中心,可显著改善现有的功能和流程,比如被用于故障预测,以及提前对尚未建成的数据中心进行建模和模拟。数据中心运营商是其中的直接受益者,除了大幅提高工作效率外,还能有效降低运营成本。

然而,要想从现有的深度学习模型中获得有意义的结果,数据中心运营商需要不断增加计算能力和内存带宽。如今,强大的通用芯片(如CPU)已经无法支持如此复杂的深度学习模型。因此,能够实现并行计算能力的AI芯片越来越受欢迎。

人工智能正在改变数据中心

多年来,谷歌、亚马逊和Meta等数据中心和存储提供商一直通过使用AI不断改进在运营中面临的问题,AI已经成为数据中心建设中的一种合理投资。下面我们就来看看有了AI加持的数据中心将有哪些改进。

一:能源效率

随着数据中心变得越来越大、越来越复杂、越来越多地连接到云,AI正在成为防止设备过热,同时节约能源的重要工具。根据美国能源部的《美国数据中心能源使用报告》,自2010年以来,美国数据中心的用电量每年增长约4%,到2020年达到了730亿千瓦时,超过该国总用电量的1.8%。

此外,数据中心还贡献了全球约2%的温室气体排放量。许多数据中心正在通过使用AI来提高运营效率,特别是在能源管理方面。在这里,AI可以自动监控和调整整个数据中心的电力和散热需求。公开资料显示,谷歌在其数据中心中通过AI控制其暖通空调系统(HVAC)后,可将总体能耗降低约30%~40%。

二:服务器优化

基于AI的预测分析可以帮助数据中心运营商在公司的许多服务器上智能分配工作负载。这样,数据中心负载就变得可预测且易于管理。使用具有内置AI功能的负载平衡工具,就能从过去的数据中学习,并更有效地运行负载分配。

三:故障预测和排除

基于AI/ML的温度警报系统在很多数据中心中得以部署,数百个温度传感器实时监测数据中心设备的健康状况,如湿度、温度和运行性能。此类系统收集的数据和结论非常有助于数据中心进行预测性维护,防止因紧急维修而导致大规模停机。

四:数据的智能监控和存储

结合机器学习(ML),AI将取代监控大量数据的日常工作,并提高IT专业人员的任务处理质量和效率。现在,AI在数据中心有一个非常令人称道的应用,那就是在巡检机器人中的使用。AI驱动的机器人可以在没有人为干预的情况下自动更换故障磁盘,整个更换过程包括自动检查、故障磁盘定位、磁盘更换和充电等,一系列工作在四分钟内就能顺利完成。

从以上四个方面可以看出,人工智能正在渗透并深刻地改变着数据中心的运营。而更为重要的是——有了AI,数据中心运营商就能够在同一物理硅架构上增加更多工作负载,快速汇总和分析数据,并产生生产性产出。

这些负载通常是数据密集型和计算密集型的,相应的应用程序需要大量的计算能力,这是由与其AI模型相关的训练和推理工作负载驱动的。因此,数据中心的人工智能还必须要有巨大的计算能力的支持。而这一切单纯依靠通用芯片几乎是不可能实现的,而且扩展成本非常高昂。

若要在数据中心实现真正的人工智能,就必须利用高性能处理器(CPU)、高速内存和GPU等专用硬件的组合才能高效处理大量数据并支持人工智能工作负载。这些专用处理器被设计用于执行矩阵计算,使其在涉及并行处理大量数据的机器学习任务中特别高效,可以显著加速人工智能工作负载的处理。

数据中心AI芯片的竞争格局

据Arizton分析,2021年全球数据中心市场规模为2,158亿美元,并将以4.95%的复合年增长率增长,预计到2027年将达到2,883亿美元。另一家市场分析机构P&S Intelligence预测,2021年全球数据中心市场规模估计为2,200亿美元,复合年增长率为5.1%,到2030年将达到3,436亿美元。尽管两家机构的预测数据略有差异,但从中我们仍能看到这样一个结果,那就是数据中心是一个有着数千亿美元潜力的巨大市场。

数据中心是企业用来存放计算机、服务器和网络系统以及满足IT需求的组件或基础设施的地方。作为数据中心重要组成部分的服务器将占有很大的市场份额。根据Industry Research的研究,2021年全球数据中心服务器市场规模约为339.86亿美元,预计在预测期内将以12.69%的复合年增长率增长,到2027年将达到695.98亿美元。

人工智能需要巨大的计算能力。随着各类企业、终端用户、云服务提供商甚至电信服务提供商的AI部署激增,2023年对专用AI处理器的需求将继续飙升,AI芯片市场将延续过去几年的增长势头。来自麦肯锡的分析数据表明,到2025年,预计数据中心将成为AI芯片的主要收入来源,达到150亿美元,比2017年增长150%。

研究公司Omdia的分析师认为,2023年发货的大约200万台服务器都将配备至少一个协处理器来加速计算工作负载,与2022年相比增长了53%,其中很大一部分将采用GPU、TPU和专用AI加速器。

在利润丰厚的数据中心芯片市场,竞争异常激烈。这场竞争最初的核心是Intel与AMD之间有关CPU的竞争。随着AI在数据中心的应用不断扩大,数据中心芯片市场的竞争不断外溢。因此,两年前Intel推出了第一款用于数据中心的GPU——Intel服务器GPU。作为回应,GPU制造商NVIDIA也推出了代号为“Grace”的基于Arm的CPU芯片进入服务器CPU市场,预计将于2023年上市。蓬勃发展的数据中心行业正在深刻影响着Intel、AMD和NVIDIA的销售前景和彼此的竞争关系。

Reportlinker在其发布的2023人工智能芯片报告中提出,全球AI芯片市场将从2022年的156.5亿美元增长到2023年的232.9亿美元,复合年增长率(CAGR)为48.8%。预计2027年人工智能芯片将增长到888.5亿美元,CAGR为39.8%。现在,AI芯片市场的主要参与者包括NVIDIA、Intel、AMD、Alphabet、Mediatek、Qualcomm、NXP等。但在数据中心市场,竞争的焦点主要集中在NVIDIA、Intel和AMD之间。

 1   NVIDIA DGX A100

NVIDIA发明了GPU,并推动了AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步,该公司的GPU一直保持着稳步迭代。2020年5月,NVIDIA公司推出了EGX A100和EGX Jetson,第一款基于NVIDIA Ampere架构的边缘AI产品是EGX A10。2022年3月,NVIDIA发布了基于Volta GPU架构的新DGX Station、DGX-1和DGX-2。

这些AI超级计算机是为深度学习训练、加速分析和推理而构建的。该系统包括为数据中心设计的NVIDIA旗舰芯片DGX A100,该芯片集成了8个GPU和高达640GB的GPU内存。DGX A100采用NVIDIA A100 Tensor Core GPU,是适用于各种AI工作负载的通用系统。目前炙手可热的ChatGPT主要采用了NVIDIA A100,并利用了微软Azure的基于云的资源和服务。如果将ChatGPT和微软其他应用程序的需求结合起来,预计2023年微软对AI服务器的需求总量将达到25,000台左右。

图1:NVIDIA数据中心旗舰GPU DGX A100

全新的NVIDIA H100 Tensor Core GPU,是NVIDIA新一代超高性能数据中心GPU,旨在为每个工作负载中实现出色性能、可扩展性和安全性。H100基于NVIDIA Hopper GPU架构构建,将加速云数据中心、服务器、边缘系统和工作站中的AI训练和推理、HPC以及数据分析应用,与上一代产品相比,可将大型语言模型的速度提高30倍。根据英伟达此前的信息,H100 Tensor Core GPU计划于2023年推出。

 2   Intel Habana Gaudi2

就在NVIDIA去年宣布Volta GPU架构计划后,同年5月份,Intel Habana Lab与Habana Greco宣布推出用于训练和推理的第二代深度学习处理器Habana Gaudi2。这款处理器是为AI深度学习应用而构建的,采用先进的7nm工艺。Gaudi 2包括24个Tensor核心,专门为训练大规模深度学习模型而优化。在Habana Lab的上一代处理器中,只有八个Tensor核心。

此外,每个Gaudi 2芯片中包含的SRAM和HBM2E存储器的数量分别增加了两倍和三倍。Intel声称Gaudi2提供的吞吐量是Habana第一代AI训练芯片的三倍。在内部基准测试中,该芯片的吞吐量是英伟达数据中心旗舰A100-80GB GPU的两倍。

Gaudi 2芯片的关键特征之一是某些网络组件直接集成到处理器中。这减少了数据中心运营商必须购买的额外网络硬件数量,从而降低了成本。Gaudi 2配备了24个100千兆以太网端口,比其前身多了14个。Intel的第一款真正的数据中心GPU,代号Ponte Vecchio,预计将在2023年上半年推出。

图2:Intel深度学习处理器Habana Gaudi2

(图源:Intel)

 3   AMD Instinct MI250X

2022年可谓是AI芯片的发展之年,同年9月份,AMD发布了基于5nm架构的Zen微架构Zen 4的更新版本。AMD是一家主要专注于图形卡和GPU的芯片制造商,尽管在开发专门用于AI的硬件方面并没有太多声音,但该公司在5月份推出了Ryzen 7000系列,这是一款专为机器学习能力而打造的新系列PC处理器,并有望随着Zen 4的推出而进一步发展。

当然,AMD在数据中心AI芯片上并不是完全没有声音。AMD Instinct MI200 系列加速器就是AMD新推出的数据中心GPU,它采用创新性AMD CDNA 2架构、AMD Infinity Fabric技术以及先进的封装技术。对于高性能计算工作负载,AMD Instinct MI250X有着出色的GPU性能,高达47.9 TFLOPS双精度(FP64),结合FPƒ64 Matrix Core技术,可实现高达95.7 TFLOPS的双精度(FP64矩阵)峰值理论性能。对于机器学习和深度学习工作负载,MI250X可提供高达383 TFLOPS峰值理论半精度(FP16)性能。

图3:有着出色GPU性能的AMD Instinct MI250X

(图源:AMD)

数据中心AI趋势展望

人工智能正在成为各个行业现代技术背后的驱动力,在优化、预防性维护、虚拟助理、欺诈检测和异常检测等方面都有应用。有人甚至说,如果没有人工智能,许多数据中心在经济上或运营上都不可行。与此同时,数据中心也必须提供巨大的计算能力和存储资源,人工智能才能实时地处理大量数据集并进行训练和推理。通过GPU和TPU等专用硬件,数据中心可以加速复杂的计算,支持人工智能应用程序和工作负载。

TrendForce数据显示,2022年,配备通用GPU(GPGPU)的AI服务器仅占全球服务器年出货量的1%。预计从2022年到2026年,人工智能服务器的出货量将以10.8%的复合年增长率增长。四家主要的北美服务提供商(谷歌、AWS、Meta和微软)在2022年的年度人工智能服务器总需求中占据了很大份额,约占全球采购量的66.2%。在用于AI相关计算的服务器GPU市场上,主流产品有NVIDIA的H100、A100和A800以及AMD的MI250和MI250X系列。其中,A800是专为中国市场设计的产品。就服务器GPU的市场份额而言,NVIDIA控制着约80%,而AMD控制着约20%。

根据IDC报告,2023年全球人工智能支出将增长26.9%,达到1,540亿美元。2026年,以人工智能为中心的系统支出预计将超过3,000亿美元。展望未来,人工智能在数据中心的未来应用和趋势将非常突出。人工智能通过提高运营效率、性能和安全性来振兴数据中心。数据中心可以通过多种方式从将人工智能集成到其组织和运营中获益。

2023年将是人工智能领域取得重大进展的一年。在未来的几年里,人工智能在整个数据中心自动化方面的能力将得到改善。届时,数据中心AI芯片的竞争将更加激烈,除了三家基础雄厚的企业,预计很多创新公司亦将加入竞争队伍。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分