企业可在Kubernetes上轻松扩展NVIDIA GPU

星星科技指导员 2022-04-11 1592

描述

　　NVIDIA GPU 运营商允许企业在 Kubernetes 上轻松扩展 NVIDIA GPU 。

　　通过使用 Kubernetes 简化 GPU 的部署和管理， GPU 运营商使基础设施团队能够在几分钟内自动无误地扩展 GPU 应用程序。

　　GPU Operator 1.9 现已推出，其中包括几个关键功能，以及其他更新，使用户可以更快地开始使用并保持不间断服务。

　　GPU 操作员 1.9 包括：

　　支持使用 DGX 操作系统的 NVIDIA DGX A100 系统

　　简化的安装过程

　　使用 DGX 操作系统支持 DGX A100

　　对于 1.9 ， GPU 操作员自动在 NVIDIA NVSwitch 系统上部署初始化结构所需的软件，包括与 DGX OS 一起使用时的 DGX A100 。一旦初始化，所有 GPU 都可以在全 NVLink 带宽下相互通信，以创建端到端可扩展计算平台。

　　DGX A100 配备了世界上最先进的加速器，使企业能够将培训、推理和分析整合到统一、易于部署的 AI 基础设施中。现在，有了 GPU 运营商的支持，企业可以将其应用程序从培训扩展到与世界上最先进的系统相匹配。

　　简化的安装过程

　　对于 GPU 运营商的早期版本，使用 GPU 运营商和 OpenShift 的组织需要从 Red Hat 申请额外的权利，以便成功使用 GPU 运营商。由于授权密钥过期，用户需要重新应用这些密钥，以确保其工作流程不会中断。

　　GPU Operator 1.9 现在支持 OpenShift 的免授权驱动程序容器。这是通过利用 RedHat 提供的 Driver-Toolkit 映像以及为构建 NVIDIA 内核模块而预先安装的必要内核包来实现的。用户不再需要确保运行 GPU 运算符时始终应用具有 RHEL 订阅的有效证书。更重要的是，对于断开连接的集群，它消除了对私有包存储库的依赖。

　　版本 1.9 还包括对带有 MIG Manager 的预装驱动程序的支持，对预装 MOFED 使用 GPUDirect RDMA 的支持，对容器运行时的自动检测，以及对 NOUVEAU 的自动禁用–所有这些都旨在让用户更容易开始并继续使用 GPU 加速的 Kubernetes 。

　　此外， GPU Operator 1.9 会自动检测工作节点上安装的容器运行时。无需在安装时指定容器运行时。

　　GPU 操作员 1.9 ：

　　helm install --wait --generate-name nvidia/gpu-operator

　　GPU 操作员 1.8 及更早版本：

　　helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd

　　GPU 操作员要求禁用 Nouveau 。在以前的 GPU 操作员版本中， K8s 管理员必须按照文档禁用 Nouveau 。 GPU 操作员 1.9 会自动检测 Nouveau 是否已启用并为您禁用。

　　GPU 操作员资源

　　以下资源可用于使用 NVIDIA GPU 运营商：

　　GPU 操作员 1.9 发行说明

　　入门指南

　　GPU NGC 上的操作员舵图

　　GitHub 上的 GPU 运算符

　　关于作者

　　Erik Bohnhorst 是 NVIDIA 的高级产品经理，专注于云本地技术，为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ，以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队，直到他加入了 EGX 团队。

　　Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前，特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

　　审核编辑：郭婷

打开APP阅读更多精彩内容