DIPO框架实现应用于具身智能仿真的3D铰链物体生成新范式

描述

DIPO

双状态约束×复杂数据驱动应用于具身智能仿真的3D铰链物体生成新范式

在具身智能从理解环境向与环境交互进化的当下,构建真实且可交互的仿真环境是重要路径。单一刚体生成已难满足需求,机器人需要面对的是柜门、抽屉、微波炉等大量具有物理约束的铰链物体。受限于复杂的运动学结构,高质量3D铰链物体资产极为稀缺。

地平线与合作者们提出DIPO,创新性地利用“静止+活动”双状态图像作为条件,结合思维链(Chainof Thought)图推理,仅需两张图片实现结构合理、运动一致、可供机器人交互操作的铰链3D资产生成。此外,还打造了自动化铰链资产构建链路,开源了大规模复杂铰链物体数据集PM-X。为机器人操作和通用场景仿真下的铰链物体生成开启了新的范式。该成果已被学术顶会NeurIPS2025录用。

• 技术报告:

https://arxiv.org/abs/2505.20460

• Huggingface Demo:

https://huggingface.co/spaces/HorizonRobotics/DIPO

• PM-X数据集:

https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset

• 项目主页:

https://rq-wu.github.io/projects/DIPO

行业痛点:3D铰链物体的资产荒

迈向通用具身智能,需要机器人需要在仿真环境中与冰箱、烤箱等复杂铰链(可活动关节)物体进行深度交互训练。然而此类资产的构建面临“采集难、建模慢、数据简”的挑战:真实物体的关节参数与运动范围测量成本极高;人工逐件装配与URDF标注耗时费力;主流数据集(如 PartNet-Mobility)平均部件数不足5个,其低复杂度结构滞后于真实世界的物理多样性,严重制约了智能体的场景泛化能力。

模型方案:双状态输入+思维链推理

DIPO摒弃了“单图猜结构”的传统路径,开辟了一条新的技术路线:通过输入物体“静止状态图”与“关节活动状态图”这一对双状态图像,显式编码关键的运动信息。

机器人

提出了一个双状态注入模块,通过注意力机制让模型学习“静止”与“活动”两张图像之间的差异,捕捉图像对间的关联特征,从而生成可靠的部件布局与关节参数。为了解决复杂物体部件连接关系(如多层抽屉、双开门)的识别难题,DIPO引入了基于思维链的图推理器。 这个推理器模拟了人类的认知过程,分步骤进行逻辑推断,大幅提升了模型对复杂拓扑结构的理解的准确性。

数据引擎:自动化构建复杂资产

为了增强模型对复杂物体的泛化能力,靠现有的简单数据集(如 PartNet-Mobility)是远远不够的。为此,DIPO提出了一套全自动的数据集构建流程。

机器人

基于此流程,发布了大规模数据集PM-X。该数据集单个铰链物体平均部件数达到19.4个,现有数据集仅为5-8个,极大地丰富了训练数据的结构多样性与生成模型的泛化性。

机器人

实验结果:SOTA 性能表现

实验表明,DIPO在多项指标上均超越了现有最先进方法,在PartNet-Mobility测试集与分布外的ACD测试集上,重建指标与图预测准确率均显著高于基线方法。

机器人

 

机器人

DIPO与基线模型的可视化对比。 涵盖PM、ACD数据集及真实场景样本,展示了基于双状态图像输入的连接图预测与铰链生成结果,红框标记了基线方法的连接错误。

机器人

总结与展望

DIPO通过引入双状态图像这一低成本、高信息的输入模态,结合思维链推理与自动化数据工厂,解决复杂铰链物体生成的难题。这项工作不仅大幅提升了生成资产的结构合理性与运动一致性,更为具身智能仿真环境的快速构建提供了一种高效、可扩展的新范式。DIPO的代码与PM-X数据集已向社区开源,持续推动3D生成与具身智能仿真领域的技术发展。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分