近日,北京大学与智元机器人的联合实验室有了重大成果,北⼤携⼿智元机器⼈团队提出 OmniManip 架构。
在具身智能领域,将视觉语言基础模型(VLMs)应用于机器人实现通用操作一直是核心问题。目前存在两大挑战,一是VLMs缺乏精确3D理解能力,二是难以将高层次推理转化为机器人低层次动作。
为解决这些难题,OmniManip架构应运而生。它基于以对象为中心的3D交互基元,把VLM的高层次推理能力转化为机器人的低层次高精度动作。针对大模型幻觉和真实环境操作的不确定性,OmniManip引入了VLM规划和机器人执行的双闭环系统设计。
OmniManip的关键设计亮点颇多,包括基于VLM的任务解析,可将复杂任务分解为多个明确主动物体、被动物体和动作类型的结构化阶段。还有闭环机器人执行,通过物体6D姿态跟踪器实时更新物体位姿,转换为机械臂操作轨迹。
全部0条评论
快来发表一下你的评论吧 !