使用NVIDIA UFM Cyber AI实现数据中心的安全性和可管理性

描述

今天的数据中心承载着许多用户和各种各样的应用程序。它们甚至已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了安全威胁造成的运营中断之外,保持数据中心完好无损并平稳运行也至关重要。

如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。

更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的IT经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA以惊人图形处理能力和出色GPU计算性能而闻名,广泛应用于各个研究领域。同时,多年来NVIDIA也一直是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

NVIDIA认识到,要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

此外,恶意用户可能会利用数据中心访问权限,通过运行被禁止的应用程序来滥用计算资源,从而导致意外的停机时间和更高的操作成本。 数据中心管理工具比以往任何时候都更能快速发现问题,同时提高效率,是当今 IT 经理和支持它们的开发人员的首要任务。

NVIDIA 最著名的可能是惊人的图形功能和无与伦比的 GPU 计算性能,几乎应用于所有研究领域。然而,多年来,它还是安全和可扩展数据中心技术的领导者,包括灵活的库和工具,以最大限度地利用世界一流的基础设施。

NVIDIA 认识到,为 MIG 这一当今研究和业务中最关键的组成部分提供全套解决方案,不仅包括世界一流的服务器平台,而部署在整个数据中心的最广泛的软件组合。 NVIDIA 也知道,安全性和可管理性是构建数据中心基础设施的关键支柱。

NVIDIA UFM 网络 AI 彻底改变了 InfiniBand 数据中心

NVIDIA Unified Fabric Manager ( UFM )网络 AI 平台提供增强的实时网络遥测,结合 AI 提供的智能和高级分析。它使 It 经理能够发现操作异常,甚至预测网络故障。这提高了安全性和数据中心正常运行时间,同时降低了总体运营开支。

UFM 网络人工智能的独特优势在于它能够捕获丰富的遥测信息,并利用人工智能技术来识别事件之间隐藏的相关性。这使它能够检测异常的系统和应用程序行为,甚至在性能下降导致组件或系统故障之前识别它们。 UFM 网络 AI 甚至可以实时采取纠正措施。该平台学习数据中心的典型操作模式,并基于网络遥测数据检测异常使用,包括流量模式、温度等。

UFM 网络人工智能基础

UFM 网络 AI 包含三个不同的层,如图 1 所示。

NVIDIA

图 1 。 UFM 网络 AI 层

输入遥测: 通过各种方式收集信息并从网络中学习:

网络中所有元件的遥测

网络拓扑(租户或应用程序的连接和资源分配)

网络设备的特点和能力

处理模型: 包含几个模型,例如用于数据准备的提取、转换和加载( ETL )处理引擎。它还包含聚合、数据存储和用于比较的分析模型。 UFM 网络人工智能使用机器学习( ML )技术和人工智能模型进行异常检测和预测,以学习数据中心网络组件(电缆、交换机、端口、 InfiniBand 适配器)的生命周期模式。

输出仪表板: 一个可视化层,它为网络管理员和云编排器提供一个中央仪表板,以查看有关提高网络利用率和效率以及解决网络健康问题的警报和建议。仪表板提供了两个主要类别: 可疑行为 和 链接分析 ,每个类别都包括警报和预测部分(图 2 )。

NVIDIA

图 2 。 UFM 网络人工智能预测仪表盘

功能丰富、直观且可定制的 fabric manager

UFM 网络人工智能还支持定制的网络警报或查看触发的异常随着时间的推移和在不同的时间维度。通过使用基于小时或星期几参数的聚合网络统计信息,您可以根据 MIG ht 偏离典型操作用途的测量值设置阈值和配置通知。例如,可以使用预定义的阈值来识别有问题的电缆。

内置分析将当前遥测信息与基于时间的聚合信息进行比较,以检测使用或流量模式中的任何可疑增加或减少,并立即通知系统管理员。 UFM-cyberai 还通过链路或端口遥测信息提供数据中心租户或应用程序警报,以识别与低级别分区密钥( PKEY )相关的统计信息及其相关节点。

只有 UFM 网络人工智能提供了链接故障预测等功能,支持预测性维护。通过在早期阶段检测性能下降情况, UFM 网络人工智能可以预测潜在的链路或端口故障。这使管理员能够执行维护并消除数据中心停机时间。

NVIDIA Morpheus 的未来增强功能

为 InfiniBand 带来最强大的结构管理解决方案需要不断创新,以跟上管理当今复杂数据中心的复杂性。我们计划将 NVIDIA Morpheus 与 UFM Cyber AI 集成(图 3 ),从其他数据中心元素(如服务器或基于机架的组件遥测或 DPU 、 GPU 和应用程序计数器)带来更多遥测信息。

我们甚至可以提供一个额外的层,它可以直接与其他 api 接口,比如 Kafka ,一个用于高性能数据管道、流分析和数据集成的开源分布式事件流平台。您可以使用该集成对开发人员定义的操作系统异常进行特定的检测,例如对生命科学研究专用系统的加密挖掘检测。

NVIDIA

图 3 。 UFM 网络人工智能与 Morpheus 框架的集成示例

Morpheus 是一个开放的人工智能应用框架,为网络安全开发者提供高度优化的人工智能管道和预训练的人工智能能力。这些功能使您能够通过数据中心结构即时检查所有网络流量。 Morpheus 通过提供以下功能为数据中心带来了新的安全级别:

动态保护

实时遥测

适应性策略

用于检测和修复网络安全威胁的网络防御

NVIDIA

图 4 。 UFM 网络人工智能作为灵活和可扩展平台的示例

随着 Morpheus 集成到 UFM Cyber AI 设备中,我们可以为关键任务数据中心和支持开发人员提供最佳和最完整的解决方案,该解决方案也具有灵活性和可扩展性。通过可定制的异常检测和与其他标准化 API 的接口, UFM Cyber AI 是任何支持多租户的数据中心或云本地基础设施的灵活资产。

关于作者

David Slama 担任 NVIDIA 网络营销高级总监,专注于高性能计算、人工智能、云解决方案和 InfiniBand 技术。 Slama 于 2005 年加入 Mellanox ,担任软件工程师,并在 Mellanox 担任多个软件管理职位,直到 2020 年。他领导云解决方案、以太网和 InfiniBand 软件管理、存储、自动化解决方案以及上游活动,如 Ansible 、 Kubernetes 、 OpenStack 、 puppet 、 chef 等。 Slama 拥有 ML 和 AI 领域的网络专利。他拥有政府学硕士学位和管理学和计算机科学学士学位。

Scot Schultz 是 HPC 技术专家,专注于人工智能和机器学习系统。 Scot 在分布式计算、操作系统、人工智能框架、高速互连和处理器技术方面拥有广泛的知识。在他的整个职业生涯中,拥有超过 25 年的高性能计算系统经验,他的职责包括各种工程和领导角色,包括战略 HPC 技术生态系统支持。 Scot 在众多行业标准组织的成长和发展中发挥了重要作用。

审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分