NVIDIA 研究人员使 LATTE3D (一款最新文本转 3D 生成式 AI 模型)实现双倍加速。
LATTE3D 就像一台虚拟 3D 打印机,能在 1 秒内将文字提示转换成物体和动物的 3D 表征。
该模型生成的形状采用标准渲染应用中常用的格式,可轻松地服务于虚拟环境中,应用在视频游戏开发、营销、设计项目或搭建机器人的虚拟训练场地。
NVIDIA AI 研究副总裁 Sanja Fidler 带领的 NVIDIA 多伦多 AI 实验团队开发了 LATTE3D。Sanja Fidler 表示:“一年前,AI 模型生成这种质感的 3D 视觉效果需要 1 个小时,当前的最新技术也需要 10 到 12 秒。现在,我们将产出结果的速度又提高了一个数量级,使各行各业的创作者都能实现近乎实时的文本转 3D 生成。”
这一进展意味着在单颗 GPU(例如 NVIDIA Research 的 demo 中使用的 NVIDIA RTX GPU)上运行推理时,LATTE3D 几乎可以做到即时生成 3D 形状。
缩短从构思、生成到迭代的周期
创作者不需要从零开始设计,也不需要翻阅 3D 素材库,只需要在脑海中“灵感乍现”时使用 LATTE3D,就可快速生成具体的对象。
该模型可根据每个文本提示生成一些不同的 3D 形状供创作者选择。被选中的形状将会在几分钟内进行优化,以提高质量。然后,用户可以将形状导出至图形软件应用或平台,例如 NVIDIA Omniverse,该平台能够开发基于通用场景描述(OpenUSD)的 3D 工作流和应用程序。
研究人员在两个特定数据集上训练了 LATTE3D 模型,分别是动物和日常物品,开发人员可以使用相同的模型架构在其他类型数据上来训练 AI。
如果在 3D 植物数据集上进行训练,LATTE3D 则能够帮助景观设计师在与客户进行讨论时,使用树木、花丛和多肉植物来快速填充花园效果图。如果在家居物品数据集上进行训练,该模型将会生成适用于 3D 家居模拟环境中的物品,开发人员还可以将这样生成的物品来训练个人助手机器人,有助于其后期在现实世界中的测试和部署。
LATTE3D 使用 NVIDIA Tensor Core GPU 进行训练。除 3D 形状外,该模型还使用 ChatGPT 生成的各种文本提示进行训练,以更好地处理用户为描述特定 3D 物体而可能想出的各种短语,例如让该模型理解凡是以各种犬科动物为特征的提示,都应该生成类似狗的形状。
NVIDIA Research 由全球数百名科学家和工程师组成,专注于 AI、计算机图形、计算机视觉、自动驾驶汽车和机器人等领域的研究。
研究人员在 NVIDIA GTC 2024 上介绍了他们的研究成果,这些成果推动了扩散模型训练技术的前沿发展。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !