《开源鸿蒙领学课堂-AI赋能系列-具身智能专题第三期》直播回顾

OpenHarmony TSC 2026-06-03 333

描述

具身智能

LeRobot +ROS能为开源鸿蒙具身智能带来什么？一文看懂技术框架与生态价值

分享嘉宾：吴小强
开源鸿蒙具身智能PMC（筹）成员

导读

最近，机器人领域除了本体、控制和场景落地之外，另一个越来越受关注的话题是：有没有可能像大模型时代的NLP一样，也为机器人建立起一套更通用的模型、数据和工具体系？

这背后对应的一个代表性项目，就是LeRobot。LeRobot由Hugging Face推动，目标很明确：围绕机器人学习，提供可复用的模型、数据集、训练流程和工具链，让更多开发者能够更低门槛地进入机器人AI开发。

但如果进一步往工程落地里看，就会发现一个问题：机器人不仅需要“会学习”的模型，还需要一套能够把感知、推理、规划、控制真正串起来的系统能力。模型之外，还离不开操作系统、推理服务、通信机制、ROS生态和底层控制链路的协同。

在本期直播中，吴小强围绕“LeRobot项目解读及与ROS生态对接思考”，系统介绍了LeRobot的项目定位、技术架构、核心模型方向，以及它与ROS、开源鸿蒙具身智能项目之间的结合思路。

LeRobot 想做的，不只是一个代码仓库

直播一开始，先讲清楚了LeRobot的定位。

LeRobot的目标，是成为机器人领域的“Transformers”：通过开放共享的模型、数据集和工具，降低机器人技术的使用门槛，让更多开发者可以基于统一框架开展数据采集、模型训练和推理部署。

这件事为什么重要？因为机器人AI开发长期面临几个现实问题：

数据获取成本高

模型训练门槛高

硬件差异大，复用难

开发链路长，从采集到部署不够顺畅

LeRobot试图解决的，正是这类问题。它希望把机器人学习所需的关键资源逐步沉淀下来，包括：

第一类：模型能力

重点聚焦在模仿学习、强化学习，以及当前机器人领域越来越关注的VLA（Vision-Language-Action）方向。

第二类：数据资源

提供开放共享的数据集，并托管在Hugging Face平台上，帮助开发者更方便地获取训练资源。

第三类：开发工具

支持训练、评测、推理等流程，也支持对接模拟器和不同机器人本体，降低实验和验证成本。

也就是说，LeRobot的目标不是单独做某个机器人任务，而是希望为机器人学习提供一套更通用的基础能力框架。

LeRobot的核心能力，围绕一个完整闭环展开

直播中还系统拆解了LeRobot的技术架构。整体来看，它围绕的是一个比较清晰的闭环：数据采集 → 模型训练 → 推理执行。

数据采集：先把训练所需的“输入输出对”积累起来

机器人学习离不开数据。LeRobot的数据采集，主要依赖：

外部观测数据，例如摄像头画面、语言指令等

机器人自身状态数据，例如关节状态、控制指令等

遥操作或人工示教过程中的动作数据

这些数据共同构成训练数据集，为后续模型学习提供基础。

模型训练：基于PyTorch进行统一训练

在收集到数据之后，LeRobot基于PyTorch进行模型训练。它支持多种机器人学习方法，并持续扩展模型能力。

相比只关注某一个算法，LeRobot更强调的是：把训练流程、模型管理和数据使用方式标准化。

推理执行：让模型真正驱动机器人动作

训练完成后，模型会部署到端侧或电脑上，根据当前观测输出动作序列，再由机器人本体执行具体任务。这一过程本质上是把“看到什么、理解什么、下一步该怎么动”连接起来，形成可运行的推理闭环。

具身智能

总之，LeRobot的目标不只停留在模型研究层面，而是在尝试把机器人学习的完整链路搭起来。

模型在快速演进，但真正难的是推理服务

如果说数据和训练解决的是“怎么学”，那推理服务解决的就是“学完之后怎么稳定地用”。这也是本次直播里比较值得关注的一部分。

为什么推理服务更难？

因为机器人控制和大模型问答不一样。LLM更多是离散token的生成，很多时候是开环的；但机器人控制面对的是：

连续动作空间

高频实时执行

闭环反馈控制

安全性和稳定性要求高

这意味着，机器人推理服务不仅要“能出结果”，还要：跟得上控制频率、保证足够低的时延、动作输出尽可能平滑以及能和底层本体控制闭环稳定连接。

围绕推理服务，重点关注的能力包括：

同步推理与推理加速：保证推理速度匹配实际控制需求

实时性增强：降低时延，提高确定性

动作平滑处理：避免动作抖动，让输出更连续

本体抽象与控制闭环：屏蔽底层硬件差异，建立统一的执行链路

换句话说，模型只是“会思考”的一部分，而推理服务真正决定了：这些思考结果能不能稳定变成机器人动作。

为什么LeRobot不能绕开ROS？

直播中还重点谈到了LeRobot与ROS生态的关系。这个问题其实很现实。今天机器人软件生态里，大量成熟能力都沉淀在ROS/ROS2中，包括：传感器驱动、通信机制、导航、SLAM、运动规划、控制框架等。

具身智能

因此，LeRobot如果想走向真实应用，就很难脱离ROS生态单独推进。更合理的思路，不是替代，而是结合。即：LeRobot和ROS不是二选一关系，而更适合做融合与互补。

可以简单理解为：

LeRobot更偏“大脑”：负责VLA模型、训练和推理

ROS更偏“小脑”和“脑干”：负责底层通信、控制、导航、运动规划等基础能力

这种分工其实很自然：LeRobot擅长的是AI模型驱动的学习和推理，而ROS擅长的是机器人系统工程里已经非常成熟的一整套底层能力。

一个更可行的结合方式

直播中提到的思路大致包括：

用ROS Node采集传感器数据，并进行标准化处理

将这些数据送入LeRobot推理服务

LeRobot输出动作序列后，再由ROS侧进行路径规划、运动学处理和动作分发

最终通过控制层驱动真实机器人执行

具身智能

在这个链路里，关键不是简单“接上”，真正要做的是一条从感知到执行的完整工程链路。

对开源鸿蒙具身智能项目来说，LeRobot的价值在哪里？

结合前两期直播的内容来看，这一期的重点，其实是在补充开源鸿蒙具身智能项目中的另一块关键能力：机器人AI模型和数据体系。

LeRobot所能提供的价值包括：

提供更系统的机器人学习能力入口：包括数据采集、训练、评测、推理等链路，可以帮助开发者更快进入机器人AI开发。

为VLA等具身智能模型落地提供参考框架：这对于后续复杂机器人能力建设，尤其是面向操作任务的智能化能力，有现实意义。

有助于和ROS、开源鸿蒙形成分层协同：如果把系统能力、机器人中间件能力、AI推理能力整合起来，就有机会形成一套更完整的具身智能技术栈。

这也意味着，LeRobot的引入，不只是增加了一个开源项目的选项，而是在开源鸿蒙具身智能项目中，补上了“模型与数据能力”这一块重要拼图。

总结：具身智能不仅要有“大脑”，还要能接进工程体系

LeRobot正在尝试为机器人领域提供一套更开放、更标准化的模型、数据和工具体系，帮助机器人学习能力更容易被开发、复用和扩展；同时，ROS生态完善了成熟的机器人系统能力。

而开源鸿蒙凭借其分布式互联、弹性架构、人机交互、安全自主等核心特性，将致力于成为具身智能世界的操作系统底座。LeRobot所提供的先进AI模型与海量数据集，结合ROS生态中超过7000+的成熟软件包，将共同构成开源鸿蒙具身智能项目的关键能力支撑。

诚邀广大高校师生、开发者、研究机构与厂商加入开源鸿蒙具身智能项目，共同探索LeRobot+ROS+开源鸿蒙的创新边界，携手推动具身智能走向更广阔的行业应用！

附：LeRobot代码仓库入口链接

https://gitcode.com/openharmony-robot/lerobot_IB_Robot

直播回放

具身智能

审核编辑黄宇

打开APP阅读更多精彩内容