AI 工作负载的电源

李芳 2022-08-08 2118

电子说

1.4w人已加入

描述

AI 无处不在的性质不仅限于数据中心，也不在 MIT Python 程序员的头脑中。它可以在我们当地的超市中以自导机器人的形式在过道中漫游，使用卷积神经网络 (CNN) 和其他方式嵌入机场安全摄像头。

无论 AI 接口是什么——一个眼睛粘糊糊的超市机器人，或者一个性感的澳大利亚女声给我们指着一个好酒吧——工作负载需要在某种基于 CPU 或 GPU 的系统上处理，比如来自 Nvidia 的 DGX。

因为有这么多不同类型的 AI，所以没有一种最适合的硬件来处理工作负载。正如英特尔的Naveen Rao所说，“客户发现没有单一的‘最佳’硬件来运行各种 AI 应用程序，因为没有单一类型的 AI。” 无论为 AI 应用程序选择哪种硬件，肯定有一个共同点：处理工作负载的每台设备都需要有电源。

美元数据

对于 IT 经理来说，人工智能对计算服务器所需的功率产生了相当大的影响。服务器机架的平均功耗通常为 7 kW；但是，AI 应用程序每个机架可能使用超过 30 kW。增加千瓦是必需的，因为 AI 需要更高的处理器利用率，例如在 GPU 类型服务器上运行的应用程序——它们每个芯片需要两倍的功率。

当然，如果您的设施功率受限，您可以尝试四处移动数据，但这可能需要比处理数据更多的能量，而且功率消耗始终与移动中的数据量有关。简而言之，与数据传输相关的成本很高。

例如，尽管有许多云提供商（AWS、Azure、Google 等）可供选择，但许多公司都面临与复杂数据传输价格相关的隐藏成本。解决这一困境的一个可行的解决方案不是移动数据，而是在更接近起源点的地方处理它——这创造了对边缘计算的另一种需求。

用小网络解决大问题

边缘计算有望成为另一个无处不在且备受期待的数据进步（称为 5G）的支柱。5G 预期的 1 毫秒延迟时间需要许多分布式处理区域（也称为边缘网络）的支持。基于边缘的服务器需要更靠近个人流式传输 4K 视频和最终 8K 格式的视频，以及用于监控智能城市中行人和交通活动的摄像头等应用程序——而这一切都无需将其发送到云端。

此外，还需要边缘网络来支持自动驾驶汽车。这种优雅的新数据流挂毯的核心将是人工智能近乎实时地处理信息。

目前，所有 AI 应用程序都运行在基于硅的计算硬件上，无论是在智能手机内置的定制芯片中、在边缘计算服务器内部署的 FPGA 中，还是在专门构建的以 AI 为重点的系统中，例如来自 Nvidia 的 DGX，可通过公共云访问。

并且该硬件都需要电源，无论是直流电（如电池）还是交流电（来自电网）。它还需要物理系统之间的连接，无论是通过铜缆还是光纤数据连接。

断电是AI的氪石

人工智能似乎对人类具有前所未有的价值。然而，当遇到断电时，它会崩溃并停止运作——就像超人对氪石的反应一样。将 AI 与这种能量克星隔离并降低故障风险的解决方案是确保可靠的功率流。

具有每插座功率感应功能的开关 PDU将使边缘数据中心能够最大限度地延长所有需要近实时处理的 AI 应用程序的正常运行时间。在这种环境下，选择可靠的 PDU 为交通控制信号和中继站的 AI 工作负载供电非常重要，急救人员使用这些工作负载为救护车、消防和执法服务提供调度和紧急数字通信。

鉴于这些关键任务的情况，智慧城市需要智能电源设备来确保其 5G 服务畅通无阻。使用远程监控和管理的数据中心 PDU 还有助于监控机柜内的温度和环境条件。

回到数据中心和主机托管设施，人们正在更换基于 CPU 的服务器以获得更强大的 GPU 系统人工智能处理能力，当 C13 和 C19 插座的更大组合时，拥有可扩展的机架式 PDU 真的会派上用场需要——正在创建 30 kW 机架的过程中。

审核编辑黄昊宇

打开APP阅读更多精彩内容