建设“绿色计算”，解读“智算中心”

GPU视觉识别 2022-01-09 1444

今日头条

1192人已加入

描述

　　在深度学习、元宇宙的迅速推动下，大数据分析、高性能计算、人工智能、CAE仿真等领域得到快速发展。

　　仅2021年上半年，中国新增的人工智能企业就超过30多万家，一是可见的人工智能公司数量增长，二是越发膨胀的算力需求。

　　信通院发布的中国算力发展指数白皮书显示2020年中国智能计算的算力占算力规模的41%。预测到2030年，占比将迅速攀升到70%。

　　智算中心概念内涵及功能定位

　　概念界定

　　智算中心是基于最新人工智能理论，采用领先的人工智能计算架构，提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施，通过算力的生产、聚合、调度和释放，高效支撑数据开放共享、智能生态建设、产业创新聚集，有力促进AI产业化、产业AI化及政府治理智能化。

　　主要内涵

　　一. 算力公共基础设施

　　智算中心面向政府、行业、企业等多用户群体提供人工智能应用所需算力服务、数据服务和算法服务，能够汇聚各行业领域数据资源、支撑各行业领域AI计算需求，智算中心作为公共算力基础设施，通过提供共性的算力、数据及算法服务，让算力服务更为易用，使得智慧计算像水电一样能成为基本公共服务。

　　二. 计算架构技术领先、生态成熟

　　智算中心基于AI模型提供高强度的数据处理、智能计算能力，集成先进的智能软件系统和智能计算编程框架，实现云端一体化，形成技术领先、可持续发展的高性能、高可靠计算架构。智算中心核心计算单元采用先进的人工智能芯片，面向新型的人工智能场景，采用异构计算，能大幅提升对基础算力的使用效率和算法的迭代效率。同时集成生态成熟的智能软件系统和智能计算编程框架，便于不断迭代升级。

　　三. 算力、数据和算法的融合平台

　　智算中心以融合架构计算系统为平台，以数据为资源，以强大算力驱动AI模型对数据进行深度加工，使算力、数据、算法三个基本要素成为一个有机整体和融合平台。智算中心为AI算法研发提供大规模数据处理能力，也为AI产业应用提供充足的计算资源，全面支撑各类人工智能技术的应用和演进。

　　四. 以产业创新升级为目标

　　围绕智算中心基础设施建设，以数据流引导技术流、业务流、资金流、人才流聚集，实现以数据驱动产业创新发展新模式是智算中心的核心目标。通过打造人工智能开放服务平台，面向AI产业、传统产业提供基于深度学习技术的人工智能算法能力、算法框架和相关接口，全面汇聚并赋能各产业领域AI应用，助力加速孵化新业态，推进数字经济与传统产业深度融合，实现AI与产业的聚合并带动形成一个多层级的AI产业生态体系，全面赋能产业创新升级。

　　功能定位

　　智算中心是智能时代面向社会全域多主体的新型公共基础设施，集算力生产供应、数据开放共享、智慧生态建设和产业创新聚集四大功能于一体，为有海量数据存储、处理、分析及应用支撑需求的各类场景提供载体支撑。

　　一. 算力生产供应平台

　　AI计算是智能时代发展的核心动力。智算中心以数据为资源，以强大算力驱动AI模型对数据进行深度加工，源源不断产生各种智慧计算服务，面向全行业领域提供基于深度学习技术的人工智能算法能力、算法框架和相关接口，为政府、企业及科研院所等多方用户提供生产生活各领域智慧服务，发挥新型基础设施的社会价值，降低社会服务成本，让智慧计算服务更快的普及到每个人、每个企业。

　　二. 数据开放共享平台

　　智算中心是新型公共基础设施，通过全量汇聚各行业领域数据资源，开放共享全面提升AI算法训练数据质量。同时，随着数据汇聚共享能力的提升，通过跨领域数据的多次开发利用，以数据流引领技术流、业务流、资金流、人才流等聚集，深度分析挖掘应用需求，使沉淀的数据资源在各个应用场景中实现价值最大化。

　　三. 智能生态建设平台

　　智算中心是集人工智能、大数据、云计算等多种技术和AI算力服务、数据服务和模型服务于一体的新型IT基础设施。其广泛应用将加速推动产业AI化和AI产业化，以智能算力生态聚合带动形成多层级产业生态体系，赋能多个产业、惠及多类主体，助推数字经济与传统产业深度融合，加速孵化新业态。

　　四. 产业创新聚集平台

　　以AI算力生产供给为核心的智算中心，面向政府、企业及科研机构等多主体，围绕数据、算法和算力三大要素着力构建AI全产业链。其通过生产、聚合、调度和释放算力推动AI 产业要素资源聚集，汇聚不同主体资源优势打造产业创新聚集平台，在政府主导下，科创企业、科研机构和传统企业发挥各自在AI方面的技术优势、研发优势和场景优势，加速AI应用场景落地，助力传统产业转型升级，催生经济新业态新模式，优化公共服务供给。

　　智算中心基础设施

　　随着旺盛的需求和建设迅速发展，新的问题被提出来。归纳起来为开放、融合、绿色、普惠、服务。

　　开放

　　目前，智算中心面临的首要问题是开放性。AI应用数量的增加和迭代速度对智算中心的生命力提出挑战。

　　智算中心作为一种新型基础设施，不能仅仅解决材料或基因等某一领域的问题。

　　同时，智算中心的建设要避免在斥巨资建设智算中心一两年之后，智算中心的功能就大幅衰减的情况。

　　关于业界智算中心的建设的两种思路：

　　一. 垂直一体化整合模式

　　每一层由建设者独立实现，优点是避免不同技术路线之间的适配过程。

　　二. 多元协作模式

　　适配难度会大一点，但对开发者更友好，更有利于产业发展。通过芯片、算法、框架和模型的全面开放和兼容，构建多元集成基础架构，实现计算基础的最大易用性，降低迁移成本，为未来开发者带来更好的环境，进而通过建设智算中心，促进整个产业链的健康发展。

　　融合

　　随着AI技术的不断发展，各行业对智能化、数字化转型的认识和需求不断增强，从产业横向来看，AI赋能的领域越来越多，从智慧城市到工业制造再到农业生产、科学计算等等。从行业纵向角度来看，AI应用正在从垂直领域逐步向纵深领域发展，以解决行业内部的关键问题。

　　AI应用多样，对算力的需求同样多样。有些应用需要高精度的算力，而有些则需要低精度算力。混合精度和多元算力成为智算基础设施发展的必然趋势。

　　绿色

　　除了AI的应用越来越多，AI模型的参数和智算中心的算力也在逐年上升。

　　尤其是现在大模型越来越多，以GTP-3为例，相关数据显示，如果GPT-3的所有程序都运行一次，该模型产生的碳排放量相当于一辆车行驶70万公里，大约是从地球到月球的两倍距离。

　　在双碳目标下，智算中心的节能减排形势相当严峻。

　　蓝海大脑冷板式液态智算中心通过将需要散热的设备固定在一块冷板上（通常为铜铝等导热金属构成的封闭腔体），将发热器件的热量间接传递给循环流动的冷却液体，液体在通过冷板的时候将设备热量带走，以达到散热的目的。

　　技术特点

　　散热能力强：局部热流密度达150W/CM²

　　维护方便，技术成熟

　　环境适应性强：适用于军民领域各种应用环境

　　冷却介质多为导电液体，存在泄漏安全隐患

　　关键技术

　　系统匹配设计

　　流量分配设计

　　冷板流道优化设计

　　焊接

　　自密封连接

　　基于蓝海大脑冷板式液态技术已经完全达到了国家要求数据中心碳排放标准，实现从规划设计、中心建设、到平台运营的完整配套服务，贯穿智算基础设施的全生命周期。

　　普惠

　　目前，智算中心的价格有两个特点：

　　一. 贵

　　作为一种新型的算力基础设施，如果通过将建设成本转换为算力单价来计算，算力成本较高。

　　二. 乱

　　这是一个新兴市场，而算力的价格与智算中心所在地区等多方面因素有关。

　　从长远来看，一定要有非常普惠的算力提供给AI用户和开发者，让AI产业持续发展，也能降低各地政府的投资建设压力。

　　服务

　　目前大部分智算中心采用取建、运分离的模式，运营方面还没有成熟的商业模式，运营主体普遍处于模糊地带，有可能出现运营缺乏的情况。

　　但是，对于要建设智算中心服务区域经济各地政府来说，智算中心的运营是刚需，是必须要解决的问题。

　　总结

　　智算中心的建设仍处于初期阶段，要从开放、融合、绿色、普惠、服务五个方面进行智算基础设施的建设，提高智算中心的运营效益。

　　随着AI产业和产业AI的不断发展，智算基础设施建设热度持续升高。与传统的数据中心相比，智算中心在当地产业经济发展可能会带来更明显的作用，如何建好、管好、用好智算中心是一个持续迭代更新的命题。

　　液冷智算中心案例

　　随着数字经济高速发展，数据量与日俱增，海量的数据处理、存储、传输的过程都离不开智算中心。智算中心作为新基建的重要组成部分，数字经济的坚实底座，其重要性已上升到国家战略层面。

　　从需求量上看，在数字经济时代，全国的数据量平均每两年翻一番，数据处理刚需依然存在，可预见智算中心规模也将相应地增长。截止至 2019 年，全国数据中心产值已达 1,562.5 亿元，与 2018 年相比，增长27.2%。预计 2035 年产值将达 6,057.5 亿元。

　　利用高性能服务器的人工智能集群技术。多个液冷机器可以聚集在一起，以扩大吞吐量，以进一步训练和推理加速，并支持数十亿至数万亿参数模型。大型数据中心和高性能服务器通常有数百到数千个节点，需要数月或数年时间才能建成，占用数据中心机柜空间及增加耗电量，并且通常吸引超过 10MW 的设备。相比之下，每台液冷GPU服务器提供相当于10s-100s传统节点的计算等价物。此外，冷却系统、供配电、空调功耗和资源池虚拟化技术的发展和优化，推动PUE 值持续降低，数据中心总体能效水平有所提高。

　　在以前的20多年里，大多数智算解决方案都采用行业标准互连的大规模服务器集群。随着人工智能、大数据等技术和应用的日益成熟落地，实际业务对数据中心等底层基础设施的性能要求越来越高。性能提高直接导致服务器功耗不断增加，尤其是芯片制程提升变慢导致功耗提升加速，通用 CPU 的 TDP（Thermal Design Power ，散热设计功耗）持续增加，已从最初的 100W 左右逐步增加到最高可达 400W。单台通用服务器满载功率已逼近 1 kW，用于 AI 训练的机器单机功率甚至高达 2.6kW，未来AI 训练 GPU 单机预计最高可达 10kW。

　　另一方面，云计算数据中心的单体规模越来越大。截止至 2020 年，全国数据中心总机架数约 428.6 万架。数据中心总机架数增长规律与总产值相似，均以相对稳定地增幅逐步上涨，预计至 2035 年全国数据中心总机架数约 1,491.1 万架。无论是对于局部散热还是整个数据中心散热而言，风冷技术均趋于能力极限，且每年会产生大量的电力消耗，增加了数据中心的运维成本。

　　液冷技术通过液体作为热量传输媒介，达到降低设备温度的目的。液体可以直接导向热源带走热量，不像风冷一样间接通过空气制冷。对于密度高、规模大、散热需求高的数据中心优势明显。

　　液冷数据中心解决方案

　　对于需要最大性能、密度和效率的大型系统的客户，高性能服务器提供液冷机柜，高性能服务器提供液冷机柜，支持高性能计算配置中所有组件的液体冷却系统。

　　这种架构包含许多支持高瓦数CPU和GPU（超过500W）的创新功能，极大地减少了互连布线需求，降低了操作成本。液冷式基础设施还带来了更紧凑的系统结构，减少使用昂贵的光互连电缆。

　　此外，其基础设施经过精心设计，支持多处理器体系结构和加速器选项，至少在未来十年内与下一代CPU、GPU和互连技术保持向前兼容。

　　机柜架构

　　液冷机柜的计算和交换机基本构件包括：

　　服务器机柜：一台机柜可容纳8台机箱，最多支持64个计算刀片和512个处理器。

　　计算刀片：刀片是机箱中的模块，包括CPU、结构连接、印刷电路板，以及冷却和电源组件。预装四个双插座节点。从机柜前部插入机箱。

　　交换机机箱：可容纳8台交换机箱，最多支持64个交换机。从机柜后部插入机箱。

　　交换机刀片：包含光纤交换机，电路板，用于连接计算刀片和冷却所需的所有组件和电源。

　　每个机柜包含8个服务器机箱和8个交换机机箱，直接从交换机连到刀片上，无需布线。交换机和交换机端口都是直接液冷冷却。刀片垂直放置，交换机水平放置，交换机可以直接与刀片相连接。

　　预装的液冷计算刀片配备四台双处理器服务器。所有组件均采用直接液体冷却方式。机柜未配置风扇。

　　网络

　　64 口交换机，提供 12.8 Tb/s 带宽

　　每个交换机机箱最多支持8个交换机刀片，每个计算刀片最多支持8个光纤连接

　　每个机箱2个交换机，用于向32个计算节点（8个计算刀片）单点连接（每个节点一个网络连接）

　　每个机柜有16个交换机，用于向256个计算节点（64个计算刀片）单点连接（每个节点一个网络连接）

　　任何端点间，最多3次连接

　　电源

　　液冷机柜可以支持高达300千瓦的功率。

　　每面机柜都有一系列PDU和整流器，将输入的480V或400V三相交流电源转换为380V直流电源，分配给单独的计算和交换机刀片。计算和交换机刀片上的直流到直流转换器将输入的380V直流电源首先转换为48V直流电源，然后转换为各种组件的直流电压。机柜支持顶部或底部供电。

　　冷却

　　机柜和所有组件冷却由贯穿整个计算设施的循环液体完成。冷却分配单元（CDU）通过数据中心的热交换器冷却液体将热水循环。整个冷却回路是一个源自CDU的闭环。一个CDU最多可以支持四台液冷机柜。CDU将冷却液保持在一定温度，并通过热传递机制将热量转移到数据中心的水里。

　　液体冷却通过一系列流管到达液冷柜中的各个刀片和部件，这些流管将冷却液从主管道分配到各个刀片和交换机，然后将热的液体回流管道。机柜前面配备计算刀片的冷却管，后面配备交换机的冷却管。计算刀片和交换机刀片之间的连接快速且无滴漏，可在不关闭整个系统的情况下卸下刀片对服务器进行维护。冷板直接去除CPU中的热量。当NIC夹层卡位于CPU上方时，由CPU冷板冷却。液冷高性能服务器的功率和冷却预算大大小于风冷装置。

　　总结

　　扩展：机柜内的无电缆网络减少外部电缆和光缆。

　　总体拥有成本TCO：在产品使用寿命内节省电力和水的运营成本。

　　灵活性：灵活高度集成的液冷基础设施提供广泛的计算平台、可升级的网络解决方案及未来的兼容性。

　　在“marketing@lanhy.cn”获取完整版《智能计算中心规划建设指南》完整版。

　　END

　　审核编辑：鄢孟繁

打开APP阅读更多精彩内容