透过NVIDIA GR00T模型和Jetson Thor芯片看人形机器人未来发展

Felix分析 2024-04-10 3489

描述

时间回溯到2023年ITF世界大会，NVIDIA创始人兼首席执行官黄仁勋在演讲中表示：“下一波人工智能浪潮将是一种被称为具身AI的新型人工智能，即能够理解、推理并与物理世界互动的智能系统。”一时间，具身智能作为行业热词不胫而走，实际上NVIDIA等公司早就在这一领域开始了布局。

具身智能指机器人或智能系统能够通过感知器和执行器与其所处的环境进行实时互动。从概念上说，具身智能的实例范围很广，包括机器人技术、自动驾驶汽车和聊天机器人等。本文我们主要聚焦于人形机器人的发展上。

根据市场调研机构Markets and Markets的数据，预计全球人形机器人市场规模将从2023年的18亿美元增长到2028年的138亿美元，其间复合年增长率可达50.2%。国际投资银行高盛在长期预测中称，全球人形机器人市场将会在2035年达到1540亿美元。巨大的市场潜力让科技公司对人形机器人发展极为重视，并持续迭代自己的软硬件方案，NVIDIA也不例外。

就像黄仁勋在NVIDIA GTC 2024上提到的，开发通用人形机器人基础模型是当今人工智能领域中最令人兴奋的课题之一。世界各地的机器人技术领导者正在汇集各种赋能技术，致力于在人工通用机器人领域实现突破。

会上，NVIDIA发布了Project GR00T人形机器人基础模型，并在Isaac机器人平台上实现重大更新。这些新方案体现了NVIDIA对人形机器人所需软硬件的思考，且能够看出一些未来人形机器人发展的具体方向。

人形机器人技术路线及NVIDIA的思考

相较于传统机器人，人形机器人对环境的感知和响应能力更出色。主要原因在于，人形机器人具备感知、认知、决策和行动的能力，能够根据环境的变化做出相应的调整，而传统机器人基本只能依赖设定好的程序指令。

要将如此多的能力装入到机器人系统中，模型的重要性不言而喻，这也决定了人形机器人具体走怎样的技术路线。纵览当前整个人形机器人产业，其所涉及的模型大概分为四种：LLM(大语言模型)、VNM(视觉导航模型)、VLM(视觉-语言模型)和VLA（图像 -语言-动作多模态模型）。

在LLM技术路径上，主要的实现方式是人形机器人+LLMs。当前，LLM是处于科技前沿的AI大模型，展现出非常强劲的智能化实力。不过，LLM和人形机器人在部署方式上有巨大的差异，前者依靠规模庞大的算力集群，后者则属于单体智能，依赖本体算力。因而，人形机器人+LLMs路线需要将LLM进行量化，然后通过量化后的模型将外部信息，比如人的指令，转化为机器人的高层控制代码。

人形机器人+LLMs的好处在于LLM本身在很多实例方面已经具备很强的能力，部署之后只需要做快速推理就可以。不过，通过当前搭载LLM的人形机器人也能够看出其不足，那就是量化范围内的能力会非常出色，范围之外的交互则会出现明显的卡顿，甚至是不理解指令，并且这些机器人运动能力有限。

VNM正如其中文释义一样，人形机器人+VNMs可以理解为视觉自动驾驶系统从车端向人形机器人端的转移，也有人将其称为“车人同源”。由于VNM在车端主要负责在各种交通环境下进行感知、决策和控制，其核心神经网络的信息输入来自相机、激光雷达等实时传感器，因而人形机器人+VNMs天生就具备比较强的运动能力。尤其是由BEV、Transfomer、自动标注等技术融合而成的VNM，这方面的能力是非常强劲的，具备了自身的“上帝视角”。

人形机器人+VNMs的难点在于如何在运动能力之外增强交互能力，这需要在VNM主体下融入更多的新模型，新模型的训练和融入速度决定了人形机器人+VNMs的效果。

人形机器人+VLMs路线中的VLM从互联网数据和机器人数据中学习，并将这些知识转化为机器人控制的通用指令。VLM首先从预测语言和预测动作中进行学习，以此为基础，然后结合视觉系统的上下文结合能力来做最终决策。VLM在任务正确性方面有很大的优势，不过基础模型能力，如语言和动作并不如LLM和VNM。

那么，NVIDIA的技术路线是什么呢？2023年ITF世界大会上，NVIDIA发布了基于VIMA大模型的机械臂，支持文本、视觉、语音等多模态作为机器人的任务输入，通过包含仿真基准测试、60多万个专家轨迹、多种级别评估协议等系统化的泛化测试作为目标输出集合。此时，NVIDIA初步展示了自己在机器人领域的多模态能力。

在NVIDIA GTC 2024上，该公司发布了Project GR00T人形机器人基础模型。据介绍，Project GR00T是一个用于人形机器人的通用基础模型，由其驱动的机器人（代表通用机器人00技术）将能够理解自然语言，并通过观察人类行为来模仿动作——快速学习协调、灵活性和其他技能，以便导航、适应现实世界并与之互动。下图是Project GR00T的技术框图，粗看比较像VLM的技术路径，实际上是进一步的VLA。

人形机器人
Project GR00T的技术框图

框图表达的可能并不直观，我们再看Project GR00T的训练机制，能够发现其确实是融合了LLM、VNM和VLM的能力，将语音、动作和机器人数据全部作为基础模态融入大模型中，得到高度泛化能力和思维链能力。

人形机器人
Project GR00T的训练机制

长江证券研究所此前在研报中指出，在人形机器人发展初期阶段，LLM可以赋能人形机器人，大幅提升机器人的智能交互能力；在1-3年的中期阶段，VLM模型将能够显著提升机器人的环境交互和决策能力；从长远来看，具备语言、动作和专业机器人知识模态的VLA将成为最终部署方案，成熟的VLA模型可以实现人形机器人的具身智能。实际上，这也是符合具身智能技术形态的，具身智能是机器人学、深度学习、机器视觉、强化学习、自然语言、计算机图形化和认知科学等多学科交叉互助的产物。

从这个结论来看，NVIDIA Project GR00T的战略目光是非常长远的。

人形机器人部署方式及NVIDIA的应对

以人形机器人为主导的具身智能将会给人工智能技术发展带来重大转变，也是通用人工智能落地的必由之路。也有很多业者认为，人形机器人商业化落地的进度是衡量通用人工智能成熟度的重要指标。

谈到人形机器人的落地，就需要将上述这些模型部署到人形机器人壳体中。近两年，人形机器人在关键技术方面取得了非常大的突破，尤其是模型方面，可以说是日新月异。不过，平安证券在研报中指出，人形机器人要落地，零部件先行。

其中，人形机器人所用到的很多零部件都传承自传统机器人，比如旋转执行器、直线执行器、手部执行器、电池包、视觉传感器等。然而，由于人形机器人形态和理念的变化，传统工业机器人零部件供应商并不能占据核心供应商的位置，这个位置属于高性能计算芯片供应商，前者提供的零部件处于“机构层”，后者提供的零部件处于“决策层”。如下图所示，芯片是人形机器人“大脑”的承载体。

人形机器人
图源：觅途咨询

从概念来说，智能汽车和人形机器人都属于具身智能的实例，两者的硬件系统也较为类似，也有企业选择将自动驾驶的软件算法和智驾芯片移植到人形机器人上，然后在人形机器人上融入其他模态。这种方法有利有弊，上面已经提到了，我们不过多赘述。同时，在系统打造时，人形机器人相较于智驾系统在微观层面要求会更多。

就以事物识别这一能力来说，智驾主要是识别人、车、道路标识等驾驶中的常见物，人形机器人需要识别的事物明显更多，且更加细节，比如为了让人形机器人能够拿起一个物体且不损坏物体，物体的重量、体积、质感和抓取方式等都需要识别。就以NVIDIA GTC 2024上的场景举例来说，黄仁勋在介绍视频播放完成之后，他和由NVIDIA芯片和服务驱动的人形机器人一起向观众致意，这种模态是智驾不需要的，便不具备。

因而，应用于人形机器人的大模型会具有更多的模态，一方面需要更好地做模型量化，另一方面也需要计算芯片提供更高的AI能力，这是人形机器人在部署层面遇到的主要挑战之一。那么，NVIDIA是如何帮助人形机器人方案商应对这些挑战的呢？我们从Jetson Thor 计算平台上找找答案。

Jetson Thor是NVIDIA专门为人形机器人打造的全新的计算平台，能够执行复杂的任务并安全、自然地与人和机器交互，具有针对性能、功耗和尺寸优化的模块化架构。这款SoC带有transformer engine的下一代GPU，可由其处理多个传感器数据，对于广泛部署传感器的人形机器人来说，这一点至关重要。

更重要的是，Jetson Thor带来了能够驱动人形机器人的AI能力，可提供每秒800万亿次8位浮点运算AI性能，以运行GR00T等多模态生成式AI模型。背后的功臣是NVIDIA Blackwell架构。Blackwell架构在性能、能耗、安全、规模和模块化等方面带来全面的提升，这些提升可以更好地赋能人形机器人发展。

人形机器人
Blackwell架构

首先看性能和能耗，上面提到了Jetson Thor的芯片性能，不过没有竞品可能大家的感受并不直观。如果我们将Blackwell架构和NVIDIA上一代Hopper架构进行对比，通过下图不难看出，Blackwell架构在各个关键性能方面都带来了数倍的提升。并且，Blackwell Tensor核心增加了新的精度，基于该架构打造的第二代 Transformer 引擎支持4位浮点数AI推理，计算能力和模型规模提高一倍。简单粗暴地对比一下，Blackwell GPU的训练性能是上一代Hopper GPU的4倍，推理性能是Hopper GPU的30倍，能源效率是Hopper GPU的25倍。

人形机器人
Blackwell GPU性能优势

对于人形机器人应用来说，由于推理能力和能效更强，Blackwell架构让单体机器人能够承载的模型规模大幅提升，能够容纳更多的模态，且机器人续航更有保障。

然后看一下规模和模块化能力。Blackwell架构让NVIDIA MCM-GPU付诸现实，其中MCM为Multi-Chip-Module，属于NVIDIA自己的Chiplet技术。因此，Blackwell架构能够将NVIDIA多代技术融合在一起，也能够灵活地调整单颗SoC的性能。再深层考虑，Blackwell架构带来了更大SoC规模和模块化能力，这使得基于Blackwell架构的芯片能够满足不同层级的人形机器人应用需求。这也是为什么1X Technologies、Agility Robotics、Apptronik、波士顿动力公司、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等人形机器人公司都能够受益于NVIDIA开发的人形机器人计算平台。

最后要谈到Blackwell架构的安全性。据介绍，Blackwell架构内置NVIDIA机密计算技术，可通过基于硬件的强大安全性保护敏感数据和AI模型，使其免遭未经授权的访问。Blackwell是业内首款具备可信执行环境 (TEE) I/O功能的GPU，它不仅能够与具备 TEE-I/O功能的主机一同提供性能卓越的机密计算解决方案，还能通过NVLink技术提供实时保护。这对发展人形机器人非常关键，也属于行业刚需。为什么这样说呢？我们从政策端看，在中国《人形机器人创新发展指导意见》中着重提到，提升人形机器人功能安全性能，确保相关技术产品对人和环境友好，强化网络安全防护，提高信息获取、数据交互、数据安全等技术保障能力。

人形机器人未来发展及NVIDIA的优势

从产业动态来看，当前我们正处于人形机器人产业发展的第一阶段：在人形的壳体下，让机器人具有特定的智能化功能，主要面向制造业“简单且重复”的劳动替代，算是人形机器人从“0”到“1”的导入期。

在产业发展初期，专属人形机器人的大模型以及算力芯片是两大核心环节。在模型层面，LLM、VNM和VLM都将逐步找到自己擅长的领域，比如LLM更适合陪伴型机器人，VNM更有利于部署到仓储物流领域等。当然，从长远角度来说，VLA模型的空间更大，NVIDIA Project GR00T等项目有望打造真正通用的具身智能体。

从Blackwell架构和Jetson Thor计算平台的特性来看，产业发展第一阶段，提升计算性能当然很重要，但并非唯一目标，需要考虑能效、模块化和安全性等问题。

对于人形机器人来说，后续发展主要有四大趋势：
·深化跨学科研究：人形机器人是多学科交叉而成的产物，未来这种融合会愈发深入；
·自主性和协作性增强：随着更多的模态融入应用于人形机器人的大模型中，人形机器人将逐步在复杂环境中实现自主决策，提升人机协作的效率；
·持续提升经济特性：人形机器人在持续优化软件和硬件的同时，需要逐渐深入场景，做到模型精准量化以及算力精细化应用；
·完善伦理和法规：随着人形机器人的广泛应用，伦理和法规问题将变得更加重要，数据安全防护是重要一环，此外也需要配套政策和法规。

无论是大模型的探索，还是Blackwell架构和Jetson Thor计算平台设计，NVIDIA在人形机器人领域的创新都极具前瞻性，帮助人形机器人产业更好地完成设计和部署，并对机器人数据进行全方位的保护。

不过，面向人形机器人的未来创新，NVIDIA的赋能价值远不止于此，更大的潜能来自NVIDIA逐渐成熟的人形机器人生态布局。NVIDIA在机器人领域提供主控芯片、开发平台和工具，助力开发人员打造、部署和管理机器人。

在NVIDIA GTC 2024上，该公司着重介绍了Isaac工具，包括用于强化学习的Isaac Lab和用于计算编排服务的OSMO。其中，Isaac Lab基于Isaac Sim而构建，能够运行数千个用于机器人学习的并行仿真。作为底层技术，开发人员也可以通过Isaac Sim仿真摄像头、激光雷达、超声波、测距传感器等各种机器人用到的传感器，还可以生成用于训练感知模型的合成数据，这种逼真、物理属性准确的虚拟环境，可以大幅提升机器人的开发效率。

NVIDIA OSMO能够在分布式环境中协调数据生成、模型训练和软硬件在环工作流，如下图所示，这个云原生工作流程编排平台可用于合成数据生成 (SDG)，DNN训练和验证，强化学习，SIL或HIL 中的机器人 (重新) 仿真，以及基于SIM或真实数据的感知评估。

NVIDIA OSMO系统框图

另外，NVIDIA Isaac平台还包括新发布了Isaac Manipulator 和 Isaac Perceptor等一系列机器人预训练模型、库和参考硬件。有了这些工具，无论是面向传统机器人开发，还是面向人形机器人开发，都更加得心应手，这种完善成熟的生态也能够打破困扰人形机器人行业发展的“孤岛效应”。

最后，我们在生态中还是要重提NVIDIA在人形机器人计算平台布局的前瞻性，Blackwell架构在推理性能和能效方面数十倍的增长，证明NVIDIA深知人形机器人等单体智能设备需要什么，对人形机器人计算平台的发展有很好的借鉴和引领作用。

GTC 2024过后，NVIDIA在人形机器人领域的护城河更宽、更深了。

打开APP阅读更多精彩内容