NVIDIA生成式AI研究实现在1秒内生成3D形状

NVIDIA英伟达 2024-03-27 498

描述

NVIDIA 研究人员使 LATTE3D （一款最新文本转 3D 生成式 AI 模型）实现双倍加速。

LATTE3D 就像一台虚拟 3D 打印机，能在 1 秒内将文字提示转换成物体和动物的 3D 表征。

该模型生成的形状采用标准渲染应用中常用的格式，可轻松地服务于虚拟环境中，应用在视频游戏开发、营销、设计项目或搭建机器人的虚拟训练场地。

NVIDIA AI 研究副总裁 Sanja Fidler 带领的 NVIDIA 多伦多 AI 实验团队开发了 LATTE3D。Sanja Fidler 表示：“一年前，AI 模型生成这种质感的 3D 视觉效果需要 1 个小时，当前的最新技术也需要 10 到 12 秒。现在，我们将产出结果的速度又提高了一个数量级，使各行各业的创作者都能实现近乎实时的文本转 3D 生成。”

这一进展意味着在单颗 GPU（例如 NVIDIA Research 的 demo 中使用的 NVIDIA RTX GPU）上运行推理时，LATTE3D 几乎可以做到即时生成 3D 形状。

缩短从构思、生成到迭代的周期

创作者不需要从零开始设计，也不需要翻阅 3D 素材库，只需要在脑海中“灵感乍现”时使用 LATTE3D，就可快速生成具体的对象。

该模型可根据每个文本提示生成一些不同的 3D 形状供创作者选择。被选中的形状将会在几分钟内进行优化，以提高质量。然后，用户可以将形状导出至图形软件应用或平台，例如 NVIDIA Omniverse，该平台能够开发基于通用场景描述（OpenUSD）的 3D 工作流和应用程序。

研究人员在两个特定数据集上训练了 LATTE3D 模型，分别是动物和日常物品，开发人员可以使用相同的模型架构在其他类型数据上来训练 AI。

如果在 3D 植物数据集上进行训练，LATTE3D 则能够帮助景观设计师在与客户进行讨论时，使用树木、花丛和多肉植物来快速填充花园效果图。如果在家居物品数据集上进行训练，该模型将会生成适用于 3D 家居模拟环境中的物品，开发人员还可以将这样生成的物品来训练个人助手机器人，有助于其后期在现实世界中的测试和部署。

LATTE3D 使用 NVIDIA Tensor Core GPU 进行训练。除 3D 形状外，该模型还使用 ChatGPT 生成的各种文本提示进行训练，以更好地处理用户为描述特定 3D 物体而可能想出的各种短语，例如让该模型理解凡是以各种犬科动物为特征的提示，都应该生成类似狗的形状。

机器人

NVIDIA Research 由全球数百名科学家和工程师组成，专注于 AI、计算机图形、计算机视觉、自动驾驶汽车和机器人等领域的研究。

研究人员在 NVIDIA GTC 2024 上介绍了他们的研究成果，这些成果推动了扩散模型训练技术的前沿发展。

审核编辑：刘清

打开APP阅读更多精彩内容