阿里云部署启动全球最大的智算中心

通信网络

650人已加入

描述

电子发烧友网报道(文/周凯扬)“智算中心”的概念最早由浪潮的首席科学家王恩东于2020年提出,通过生产、聚合、调度和释放算力这几个作业环节,为企业或个人提供公共的算力资源,促进AI产业化,可以说是AI时代下的新型基础设施。而专注在AI算力上这一点,也让其有别于超算中心和云数据中心。

2020年4月,国家发改委也联合浪潮,对这一新型基础设施发布了《智能计算中心规划建设指南》,对国内智算中心的建设给出了指导标准。在这种种因素下,全国各大城市纷纷开始抢建智算中心,比如南京、武汉、深圳,杭州,以及东数西算节点中的内蒙古、新疆等省市,也纷纷将智算中心的规划建设提上日程。

智算中心的加速部署

在智算中心的部署中,云服务厂商最为积极,因为他们在云数据中心上的经验,足以让他们作为智算中心“投-建-运”的最佳主体选择。以阿里云为例,阿里云在近日启动了全球最大的智算中心,位于河北张家口市的张北超级智算中心,AI算力建设规模达到了惊人的12EFLOPS。

在双碳的目标下,张北超级智算中心将采用浸没式液冷集群,并使用风能等清洁能源供应,将PUE指标见到了1.09。在阿里云的飞天智算平台下,千卡并行效率从过去最低40%提升至90%,GPU不再是占着卡槽不干事了。对于AI训练大模型来说,效率提高了11倍,推理效率提高了6倍。

更重要的是,飞天智算平台支持一云多芯的服务器部署,无论是现有的x86服务器芯片,还是阿里巴巴自研的ARM芯片,又或是头部厂商的GPU、NPU芯片都能兼容,阿里云甚至对国内自研GPU进行了应用优化。

除了阿里巴巴以外,国内的云服务厂商和服务器厂商,譬如华为、腾讯和浪潮等,也从去年开始传出揭牌、签约和中标智算中心项目的新闻。去年,浪潮集团投资2亿元,在新疆克拉玛依云计算园区打造了西北首个智算中心;深圳大学今年就和腾讯深化战略合作,后者打造多个学科智算中心底座,提高科研算力。随着设备陆续到位,未来我们会看到更多的智算中心投入运营。

自动驾驶的训练大脑

作为汽车产业中最为体量最大的AI应用,自动驾驶不仅对车载算力提出了高要求,在完善自动驾驶策略的过程中,也需要更高性能的智算中心来完成训练、标注等工作。对于造车新势力而言,选择第三方方案厂商可能是短期内成本优势更高的做法,但考虑到提高竞争力,还是通过智算中心这种公共资源发展自己的自动驾驶技术最优。毕竟他们的老对手特斯拉都已经搭建了数台超级计算机,甚至自研了超算芯片。

就拿今年8月小鹏与阿里云在内蒙古乌兰察布市合建的智算中心“扶摇”为例,这是目前我国最大的自动驾驶智算中心,基于阿里云的飞天智能计算平台,算力最高可达600PFLOPS,从公开信息来看,提供算力的主要还是GPU。

加上不久前的高端GPU限令事件中,何小鹏表示他们已经将未来几年的需求买回来了,可以推测“扶摇”用到的很有可能就是英伟达的A100。而要想达到600PFLOPS的峰值算力,至少也得需要接近2000块A100 80GB GPU。很明显,找云服务厂商投建智算中心能更快傍上算力大腿,省去了这些车企与服务器厂商、加速器厂商定制方案的麻烦。

写在最后

尽管在不少人看来智算中心只是另一种形式的数据中心,只不过兜售的是AI算力而已。但事实是,智算中心的出现恰恰证明了AI负载已经开始渗透到政企学研的日常工作中,智算中心给到了一个灵活调度算力的公共枢纽,而且智算中心是双碳目标提出后才出现的,无论是功耗控制还是供电来源,都响应了绿色节能减排的指示,也促成了它作为下一代数字经济和智慧城市的重要基础设施。

对于用户来说,我们目前对AI的感知依然不强,每当一个AI产品面世后新意转瞬即逝,甚至感受不到真正的智能。这正是因为缺乏智算中心这种公共平台,才迟迟没有真正的爆款AI应用场景出现。在智算中心降低了AI应用成本后,会有更多的公司和个体投身到AI的开发中去。  

      审核编辑:彭静
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分