具身智能照进现实，物理 AI 解人形机器人量产困局

842221752 2025-02-20 978

人工智能

643人已加入

描述

CES 2025上，人形机器人新品密集发布，成为展会最大亮点之一。透过CES 2025不难看出，今年将成为全球人形机器人发展的关键之年，一大批人形机器人项目将开始规模化量产，产品功能丰富多元。

目前，已经有包括Walker S1在内的人形机器人入厂实习，也有非常多的陪伴型人形机器人进入场景调试的关键环节。在这个过程中，如何让人形机器人更好地理解真实的物理世界，成为产业爆发需要补齐的最后一环，也是NVIDIA的Isaac GR00T Blueprint、Cosmos世界基础模型（WFM）和Jetson Thor芯片引起业界广泛关注的原因。

人形机器人重点市场分析和技术前沿探索

随着技术和产品逐渐成熟，全球人形机器人市场发展迸发出澎湃的动能。高盛在报告中预测称，到2035年全球人形机器人出货量将达140万台，市场规模约380亿美元。这一预测相较于该机构约两年前的预测（约60亿美元）增长了6倍多。根据中国信息通信研究院发布的《人形机器人产业研究报告（2024版）》，人形机器人发展大致分为5个阶段，分别是：
·Lv1基础能力实现：具备稳定地走、跑、跳功能和初步的交互能力；
·Lv2初级智能实现：特定场景下的特定功能，结构化任务，泛化能力较弱；
·Lv3场景智能实现：特定场景下能够完成大部分非结构化任务，具备一定泛化能力；
·Lv4多场景适配：在多个场景均能够完成大部分非结构化的任务，不少于3个场景；
·Lv5全面智能实现：实现真正的具身智能，通过简单的学习即可完成各类任务。

如下图所示，当到达Lv5阶段时，全球人形机器人的部署规模将超过1亿台，市场规模将达到约10万亿元，其中工业和服务场景是主要的落地领域。NVIDIA 机器人与边缘计算副总裁Deepu Talla表示，“在我的观念里，机器人是人工智能最大的应用方向之一。”有三大推动因素让机器人变得不可或缺，包括工作演变和职业选择造成的劳动力短缺，矿工等工种依然在危险环境中进行作业，以及人类寿命延长和社会老龄化带来的养老问题。毫无疑问，在这些场景里，人形机器人作为目前最智慧的机器人形态，有着更好的通用性，也有着光明的市场前景。

人形机器人发展阶段分析，图源：中国信息通信研究院

目前，全球人形机器人发展主要处于Lv1和Lv2阶段，进入实习阶段、应用于工业场景的人形机器人产品大都处于Lv2阶段，代表着产业技术的最前沿。人形机器人对于“人形”的追求主要是为了塑造等同于人类的通用能力，从“专机专用”逐步走向“一机多用”。从事工业制造的人形机器人将从封闭式的工位逐步扩展到整个工厂；从事服务类型的人形机器人将会迈出家门走向全社会。

要实现人形机器人的通用能力需要强化机器人的“大脑”“小脑”和“肢体”能力，这些功能单元分别负责人形机器人的任务调度、运动控制和感知执行。Deepu Talla认为，当前全球人形机器人市场爆发主要受益于技术的进步和仿真环境的改进，涉及人形机器人的模型训练、环境感知和最终部署。因此，打造人形机器人需要用到“三台计算机”：
·第一台计算机用于训练：训练通常在云端、数据中心或NVIDIA DGX这样的强大平台上进行，是构建机器人“大脑”的关键步骤。比如开发人员可以在NVIDIA DGX平台上使用NVIDIA NeMo来训练和微调生成式AI模型，让人形机器人变得更加智慧。

·第二台计算机用于仿真：仿真平台和模拟环境让训练完成的人形机器人避免进行效率低、成本高、风险高的物理测试。通过“数字孪生”的方式，开发人员可以在NVIDIA OVX服务器上运行的NVIDIA Omniverse里构建一个仿真层，在虚拟环境中完成人形机器人的功能测试。仿真允许在大规模、快速且安全的条件下运行数千种场景测试，而无需受到真实世界时间和成本的限制。开发人员还可以使用NVIDIA Isaac Lab，这个开源的机器人学习框架能够显著提升人形机器人训练和调优的效率。

开发人员可以在极其逼真的虚拟环境下进行人形机器人测试，图源：NVIDIA

·第三台计算机用于部署：训练和测试完成的模型和系统需要部署到人形机器人内部，作为机器人的“大脑”。比如，NVIDIA Jetson Thor计算机系统便是NVIDIA专门为人形机器人打造的紧凑型计算平台。

从目前产业发展现状来看，用于训练、仿真和部署的高性能计算系统，在性能提高上可谓是高歌猛进，但如何利用好这些硬件进行训练、仿真还存在一些不足，且已经逐渐演化为人形机器人产业发展的瓶颈。其中一个很突出的产业痛点是用于模仿学习的专家数据，无论是获取效率还是数据量都不能很好地满足当前人形机器人爆发对于参考演示数据集的需求。

具体而言，多角度对人模仿是人形机器人功能实现的主要技术逻辑，然而目前作为人形机器人“大脑”的AI大模型普遍采用的是基于视觉或语音的感知模态，对于真实物理环境的理解存在着非常大的限制，尤其是泛化能力方面，现阶段的人形机器人在应对新环境和新任务时的表现往往不尽如人意。

模仿学习是人形机器人训练和测试调优的关键所在，主要方式包括行为克隆（Behavior Cloning）、逆向强化学习（Inverse Reinforcement Learning）等实现方式，无论是哪种方式都需要大量的数据作为参考。为了提升基于有限数据训练算法模型的效果，开发人员在开发模仿学习算法模型时，很多时候会选择DAgger（人类对不好效果进行重新演示）或模仿给定策略（通过奖励网络尽量拟合提供的示教数据）等措施，不过这些措施都有一些先天的不足。

比如，DAgger依赖人工去调优一些不好的训练结果，这种方式效率很低，且很多机器人要实现的策略是人类无法实现的，像超高精度的手部控制，六轴陀螺仪动作校准等；GAIL（Generative Adversarial Imitation Learning）便是逆向强化学习中一种示例模拟算法，不过这些策略也可能会因为专家数据不足而导致无法收敛的情况，得不到满意的调优结果。

机器人
DAgger算法示例，图源：腾讯云开发人员社区

并且，之前各种训练和仿真机制实际上都不能反馈出人形机器人对物理世界的真实反馈，在实际部署过程中会出现大量超出训练和测试范畴的情况。过往，人形机器人需要在漫长的实习期内进行大量的反复校准，以尽可能去突破真实工作环境造成的行为约束，这种方式费时费力。因而，将物理AI引入人形机器人训练和仿真环节已经刻不容缓。

Isaac GR00T Blueprint让人形机器人更好地理解物理世界

作为物理学与AI技术相互交融的前沿领域，物理AI是生成式AI下一步发展的重点方向之一。根据NVIDIA官网的术语解读，物理AI是指使用运动技能理解现实世界并与之进行交互的模型，通常封装在机器人或自动驾驶汽车等自主机器中。

如上所述，传统的AI大模型是基于互联网上现有的文本和图片训练而得，训练数据类型让这些模型具有惊人的逻辑、概念和语言能力，但对真实物理世界的了解却非常有限。当部署到智能手机、PC等终端时，这些AI大模型会有很好的效果，不过人形机器人需要作为智能体从事制造和服务等工作，与现实世界之间有大量的交互，此时传统AI大模型作为人形机器人“大脑”就会受到大量的规则约束，自主性非常低。

物理AI通过3D训练数据和强化学习策略，为人形机器人的发展带来了基于物理世界的强大模拟功能，提供安全受控的环境训练。有了物理世界的“数字孪生”，人形机器人等自主机器能够在模拟物理环境下通过数千甚至数百万次试错行为，安全快速地学习技能，显著提升人形机器人在真实物理世界中的自主性，并增强人形机器人执行任务的效率和准确性。这便是CES 2025上NVIDIA推出Isaac GR00T Blueprint给人形机器人产业带来的巨大价值。

Isaac GR00T Blueprint是专门用于合成运动轨迹生成的工作流，如下图所示，Isaac GR00T Blueprint融合GR00T-Teleop工作流、GR00T-Mimic工作流和GR00T-Gen工作流，这一完整的工作流使得开发人员只需要少量人类示范，就能轻松生成海量的合成数据集。

机器人
Isaac GR00T Blueprint工作流，图源：NVIDIA

Isaac GR00T Blueprint工作流解决了人形机器人训练和仿真环节的核心痛点——数据获取成本高、效率低，以及3D数据集缺失。在数据获取环节，开发人员可以通过 GR00T-Teleop工作流和虚拟现实设备进行动作示范，和DAgger等算法模型采用的人工反复调优不同，GR00T-Teleop工作流能够记录下开发人员少量的示范动作，并作为模仿学习的“金标准”，然后让人形机器人在虚拟环境下进行大量试错，最终达成规范动作。

Deepu Talla指出，和自动驾驶能够通过现有车辆获取数据不同，现阶段机器人的数量还不足以产生如此大的数据量，作为新兴产品的人形机器人就更是如此了。因此，数据的稀缺性造成了传统人形机器人训练和仿真的局限性，合成数据生成变得至关重要。GR00T-Mimic工作流和GR00T-Gen工作流则着重解决了这一难题，其中GR00T-Mimic工作流通过捕捉人类的示范动作，可以扩展生成更大的合成运动数据集；然后GR00T-Gen工作流借助NVIDIA Omniverse和NVIDIA Cosmos平台，通过域随机化和3D提升技术，进一步指数级扩展这一数据集。

在整个工作流中，NVIDIA最新推出的Cosmos是一个用于加速物理AI开发的平台，包含一系列开放的预训练世界基础模型，可以预测和生成虚拟环境未来状态的物理感知视频的神经网络。Cosmos平台的推出解决了人形机器人环境数据稀缺的问题，支持开发人员直接使用Cosmos模型生成符合物理学规律的合成数据，或利用NVIDIA NeMo框架，根据自己的视频对模型进行微调，以实现特定物理AI设置，在仿真环境中调优各种人形机器人功能。根据NVIDIA官方分享的数据，Cosmos平台已基于2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据，训练了9000万亿个token。因此，Cosmos平台为开发人员带来倍增的工作效率，相较于目前先进的tokenizer，Cosmos tokenizer的总压缩率高8倍，处理速度快12倍。

机器人
Cosmos世界基础模型，图源：NVIDIA

通过Isaac GR00T Blueprint工作流和Cosmos世界基础模型，NVIDIA帮助开发人员铺平了人形机器人从实验室走向真实物理世界的道路，克服了人形机器人因部署量小而造成的数据短缺问题。同时，凭借NVIDIA Isaac GR00T、Omniverse和Cosmos等平台，NVIDIA提供了全球领先的人形机器人生态系统，拥有数量庞大的人形机器人合作伙伴群体。比如，波士顿动力、Figure和银河通用等人形机器人公司正在使用Isaac GR00T开发自己的人形机器人系统；1X、Agile Robots、Agility、Uber等公司已经开始使用Cosmos世界基础模型。

高性能计算芯片是实现物理AI的关键

综上所述，物理AI的融入将进一步激发人形机器人的发展潜能，Isaac GR00T Blueprint工作流和Cosmos世界基础模型的推出，解决了人形机器人训练数据短缺问题，尤其是让人形机器人更好地理解现实世界的3D数据集短缺问题，打通了人形机器人规模化落地的“最后一公里”。

想要更好地使用Isaac GR00T Blueprint工作流和Cosmos世界基础模型，离不开NVIDIA提供的丰富的硬件资源。比如，在Isaac GR00T Blueprint工作流中，Cosmos世界基础模型和NVIDIA Omniverse的配合实现了数据集指数级扩展，这个过程中，运转Cosmos就需要强大的NVIDIA计算芯片作为支撑。根据测试数据，在等效功耗的CPU系统上处理2000万小时视频数据将需要3年以上的时间，而在NVIDIA Hopper GPU运转Cosmos平台仅用40天就能处理2000万小时的数据，如果是采用NVIDIA Blackwell GPU，这一数字将进一步缩短至14天。

实际上，NVIDIA在打造人形机器人所需要的三台计算机方面，都能够提供高性能计算系统。在训练方面，开发人员可以基于NVIDIA DGX平台使用NVIDIA NeMo来训练和微调自己的人形机器人算法模型；在仿真方面，NVIDIA OVX服务器上运转的NVIDIA Omniverse提供了开发平台和模拟环境，Cosmos平台的加入进一步强化了这种能力；在部署方面，NVIDIA Jetson机器人计算机为人形机器人提供高算力和高效能的平台。

Jetson是NVIDIA专为机器人等边缘AI应用打造的紧凑型计算平台，提供丰富的硬件以及预构建和云原生软件服务。其中，开发人员现阶段可选的Jetson模组包括Jetson AGX Orin系列、Jetson Orin NX系列和Jetson AGX Xavier系列等。

Jetson Thor系列是NVIDIA即将推出的新一代专为人形机器人打造的紧凑型计算平台，基于NVIDIA Thor系统级芯片。根据Deepu Talla透露，Jetson Thor平台性能可达到1050 TOPS，功耗最高可达120瓦，是现阶段最强大的人形机器人部署平台。人形机器人需要应对的环境和任务是复杂多样的，开发人员为此创建了许多不同的 VLA（视觉、语言和动作）模型，Jetson Thor系列能够为这些模型提供充足的算力支持。

之所以能够形成产品如此丰富的硬件矩阵，原因在于每一代GPU架构都大致相同，这种架构一致性确保了人形机器人等AI应用在云端和端侧部署的无缝连接和灵活性，让人形机器人能够应对更多的场景和任务。当然，每一代GPU架构迭代也都会带来巨大的芯片性能提升，NVIDIA Thor系统级芯片背后的Blackwell架构便是该芯片成为最强大人形机器人部署平台的关键因素之一。

对于Blackwell架构大家已经非常熟悉，作为NVIDIA最新一代GPU架构，基于多代NVIDIA技术构建，包括第二代 Transformer 引擎、Blackwell Tensor Core技术、NVIDIA TensorRT-LLM技术、NVIDIA机密计算技术、NVLink技术、解压缩引擎等。同时，基于Blackwell架构的GPU都采用先进的制造工艺，包括专门定制的台积电4NP工艺和双倍光刻极限尺寸的裸片，并通过10 TB/s的片间互联技术连接成一块统一的GPU。这些关键的架构创新让Jetson Thor平台有着出色的算力和能效表现，为搭载最领先模型的人形机器人提供硬件性能保障。

机器人
Blackwell架构创新，图源：NVIDIA

结语

正如Deepu Talla所言，目前人形机器人技术发展日新月异，还没有哪一种VLA模型被行业认定为是通用人形机器人落地的最佳方案。不过，人形机器人在发展初期，训练数据缺失的痛点是非常明显的，尤其是提升环境交互能力的3D数据。由于缺乏这些数据，传统人形机器人开发面临人工调优工作量大、强化学习模型不易收敛等问题，成为产业发展的掣肘。

通过推出Isaac GR00T Blueprint工作流和Cosmos世界基础模型，NVIDIA帮助开发人员完善了模拟学习和强化学习工作流。通过多样化的参考架构，针对特定任务提供不同的Blueprints，以及全球领先的NVIDIA Omniverse 3D仿真环境，Isaac GR00T Blueprint最大程度地缩小了训练数据和现实世界之间的不一致，帮助人形机器人适应真实的任务场景。

在这些工作流、世界基础模型和仿真环境背后，NVIDIA提供丰富的硬件资源，覆盖了人形机器人开发所需的“三台计算机”需求，即将推出的Jetson Thor系列为各种技术路径的人形机器人落地提供充足的算力支持。有了这些软硬件资源，10万亿的全球人形机器人市场规模有望提前达成。

打开APP阅读更多精彩内容