人工智能
Meta 的 AI 超级计算机——迄今为止的最大的 NVIDIA DGX A100 客户系统——将为 Meta AI 研究人员提供 5 exaflops(百亿亿次) 的 AI 性能,并且配备先进的 NVIDIA 系统、InfiniBand 网络和软件,可实现数千块 GPU 的优化。
Meta 平台对 NVIDIA 大加赞赏,之所以选择NVIDIA的技术,是因为他们认为这是迄今为止最强大的研究系统。
1月25日发布的AI 研究超级群集 (AI Research SuperCluster 简称RSC) 已经在训练新模型在推动 AI 发展。
完成部署后,Meta 的 RSC 有望成为安装 NVIDIA DGX A100 系统的最大客户。
Meta在一篇博客中说道:“我们希望 RSC 能够帮助我们构建全新的 AI 系统,例如它可以为大规模群体(其中每个人讲不同的语言)提供实时语音翻译支持,以便他们可以在参与研究项目时开展无缝协作,也可以一起畅玩 AR 游戏。”
训练 AI 的大型模型
RSC 将在今年晚些时候完全构建完毕,然后,Meta 计划将其用于训练包含超过万亿参数的 AI 模型。这可以推动自然语言处理等领域的发展,助力处理实时识别不良内容等工作。
除了大规模性能之外,Meta 还能以极高的可靠性、安全性、隐私性和灵活性,处理“各种各样的 AI 模型”,用作 RSC 的关键标准。
Meta 的RSC包含数百个 NVIDIA DGX 系统,这些系统由 NVIDIA Quantum InfiniBand 网络相连,来加速其 AI 研究团队的工作。
原理揭秘
这一新型 AI 超级计算机目前使用了 760 个 NVIDIA DGX A100 系统作为其计算节点。它们总共包括 6080 块 NVIDIA A100 GPU,这些 GPU 通过 NVIDIA Quantum 200Gb/s InfiniBand 网络相连,可提供 1895 petaflops(每秒千万亿次浮点运算) 的 TF32 性能。
尽管新冠肺炎 (COVID-19) 带来了挑战,在构建Meta RSC 的过程中,借助 NVIDIA DGX A100 技术,仅用了 18 个月,RSC就从一个纸上的想法变为一台可以正常运行的 AI 超级计算机(如以下视频所示)。
[插入 Meta 视频]
链接:https://pan.baidu.com/s/1ATr_CzWxM6VMOjELWRfTHw
提取码:gb85
20 倍性能提升
这是 Meta 第二次选择 NVIDIA 技术作为研究基础设施的基础。2017 年,Meta 使用 22000 块 NVIDIA V100 Tensor Core GPU 构建了第一代 AI 研究基础设施,该基础设施可每天处理 35000 项 AI 训练任务。
Meta 的早期基准测试表明,与上一代系统相比,RSC 训练大型 NLP 模型的速度要快达 3 倍,运行计算机视觉作业的速度要快达 20 倍。
在于今年晚些时候推出的第二阶段中,RSC 将扩展至 16000 块 GPU,Meta 认为这些 GPU 可提供高达 5 exaflops 的混合精度 AI 性能。Meta 打算扩展 RSC 的存储系统,以每秒 16 TB 的速度提供高达 1 EB 的数据。
可扩展架构
NVIDIA AI 技术适用于各种规模的企业。
NVIDIA DGX 包含全套 NVIDIA AI 软件,能够轻松地从单个系统扩展至基于内部私有云或托管供应商运行的 DGX SuperPOD。客户还可以通过 NVIDIA DGX Foundry 租赁 DGX 系统。
[插入 DGX视频]
链接:https://pan.baidu.com/s/1hzzlL4mbmNckyhMoanHGMw
提取码:6ppu
全部0条评论
快来发表一下你的评论吧 !