NVIDIA发布AI平台,大幅减少超算数据中心的停机时间

描述

NVIDIA Mellanox UFM Cyber-AI平台检测安全威胁、预测网络故障并指导预测性维护

NVIDIA于今日发布NVIDIA Mellanox UFM Cyber-AI平台,该平台运用AI分析技术检测安全威胁和运行问题并预测网络故障,能够大幅减少InfiniBand数据中心的停机时间。

UFM平台产品系列已管理InfiniBand系统近十年,此次扩展将使用AI通过实时和历史遥测及工作负载数据来学习数据中心的运行节奏和网络工作负载模式。它能根据这一基准追踪系统的运行状况和网络修改并检测性能下降、使用情况和配置文件更改。

该全新平台可发出警报,提示系统和应用异常行为、潜在系统故障以及威胁,并执行纠正措施。它还能在系统遭受黑客攻击,安装恶意应用(例如加密币挖币软件)时发出安全警报。这减少了数据中心的停机时间,而根据ITIC的研究,停机1小时所造成的成本通常在30万美元以上。

NVIDIA Mellanox网络事业部高级营销副总裁Gilad Shainer表示:“ UFM Cyber-AI平台能够确定数据中心的独特生命体征并通过它们识别性能下降、组件故障和异常使用方式。有了它,系统管理员可以快速检测和响应潜在的安全威胁并解决即将发生的故障,从而节省成本,确保客户业务的连续性。”

来自生态系统合作伙伴的支持

长期以来在其数据中心使用UFM平台的企业机构对此最新产品表示了浓厚的兴趣。

澳大利亚国家计算基础设施(NCI Australia)的服务和技术副总监Allan Williams说:“NCI在国家研究领域发挥着关键作用。我们的超级计算基础设施为5000名研究人员提供服务,他们将其用于关键性的国家和国际研究活动。UFM使我们能够有效地管理超级计算机并优化其性能。我们期待利用UFM Cyber-AI的新功能,进一步提高我们的超级计算利用率,提高我们的投资回报。”

俄亥俄州超级计算机中心(Ohio Supercomputer Center)协会理事长Douglas Johnson表示:“多年来,我们的InfiniBand数据中心一直使用UFM平台。UFM和Mellanox网络团队的专业知识已成为我们管理网络和实现稳定性的基础。UFM Cyber-AI平台具有很多出众的优点。”

扩展UFM平台

UFM Cyber-AI平台对UFM Enterprise平台进行了补充。UFM Enterprise平台提供网络监视、管理、性能优化、配置检查和安全电缆管理功能。

NVIDIA今日还发布了UFM系列的第三款产品 —— UFM Telemetry平台。这款工具能够捕获实时网络遥测数据,该数据将被传输到本地或云端数据库,用于监视网络性能和验证网络配置。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分