北大携智元机器⼈团队提出OmniManip架构

麦辣鸡腿堡 2025-01-24 885

　　近日，北京大学与智元机器人的联合实验室有了重大成果，北⼤携⼿智元机器⼈团队提出 OmniManip 架构。

　　在具身智能领域，将视觉语言基础模型（VLMs）应用于机器人实现通用操作一直是核心问题。目前存在两大挑战，一是VLMs缺乏精确3D理解能力，二是难以将高层次推理转化为机器人低层次动作。

　　为解决这些难题，OmniManip架构应运而生。它基于以对象为中心的3D交互基元，把VLM的高层次推理能力转化为机器人的低层次高精度动作。针对大模型幻觉和真实环境操作的不确定性，OmniManip引入了VLM规划和机器人执行的双闭环系统设计。

　　OmniManip的关键设计亮点颇多，包括基于VLM的任务解析，可将复杂任务分解为多个明确主动物体、被动物体和动作类型的结构化阶段。还有闭环机器人执行，通过物体6D姿态跟踪器实时更新物体位姿，转换为机械臂操作轨迹。

打开APP阅读更多精彩内容