DIPO框架实现应用于具身智能仿真的3D铰链物体生成新范式

地平线HorizonRobotics 2025-12-03 143

描述

DIPO

双状态约束×复杂数据驱动应用于具身智能仿真的3D铰链物体生成新范式

在具身智能从理解环境向与环境交互进化的当下，构建真实且可交互的仿真环境是重要路径。单一刚体生成已难满足需求，机器人需要面对的是柜门、抽屉、微波炉等大量具有物理约束的铰链物体。受限于复杂的运动学结构，高质量3D铰链物体资产极为稀缺。

地平线与合作者们提出DIPO，创新性地利用“静止+活动”双状态图像作为条件，结合思维链(Chainof Thought)图推理，仅需两张图片实现结构合理、运动一致、可供机器人交互操作的铰链3D资产生成。此外，还打造了自动化铰链资产构建链路，开源了大规模复杂铰链物体数据集PM-X。为机器人操作和通用场景仿真下的铰链物体生成开启了新的范式。该成果已被学术顶会NeurIPS2025录用。

• 技术报告：

https://arxiv.org/abs/2505.20460

• Huggingface Demo：

https://huggingface.co/spaces/HorizonRobotics/DIPO

• PM-X数据集：

https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset

• 项目主页：

https://rq-wu.github.io/projects/DIPO

行业痛点：3D铰链物体的资产荒

迈向通用具身智能，需要机器人需要在仿真环境中与冰箱、烤箱等复杂铰链（可活动关节）物体进行深度交互训练。然而此类资产的构建面临“采集难、建模慢、数据简”的挑战：真实物体的关节参数与运动范围测量成本极高；人工逐件装配与URDF标注耗时费力；主流数据集（如 PartNet-Mobility）平均部件数不足5个，其低复杂度结构滞后于真实世界的物理多样性，严重制约了智能体的场景泛化能力。

模型方案：双状态输入+思维链推理

DIPO摒弃了“单图猜结构”的传统路径，开辟了一条新的技术路线：通过输入物体“静止状态图”与“关节活动状态图”这一对双状态图像，显式编码关键的运动信息。

机器人

提出了一个双状态注入模块，通过注意力机制让模型学习“静止”与“活动”两张图像之间的差异，捕捉图像对间的关联特征，从而生成可靠的部件布局与关节参数。为了解决复杂物体部件连接关系（如多层抽屉、双开门）的识别难题，DIPO引入了基于思维链的图推理器。这个推理器模拟了人类的认知过程，分步骤进行逻辑推断，大幅提升了模型对复杂拓扑结构的理解的准确性。

数据引擎：自动化构建复杂资产

为了增强模型对复杂物体的泛化能力，靠现有的简单数据集（如 PartNet-Mobility）是远远不够的。为此，DIPO提出了一套全自动的数据集构建流程。

机器人

基于此流程，发布了大规模数据集PM-X。该数据集单个铰链物体平均部件数达到19.4个，现有数据集仅为5-8个，极大地丰富了训练数据的结构多样性与生成模型的泛化性。

机器人

实验结果：SOTA 性能表现

实验表明，DIPO在多项指标上均超越了现有最先进方法，在PartNet-Mobility测试集与分布外的ACD测试集上，重建指标与图预测准确率均显著高于基线方法。

机器人

DIPO与基线模型的可视化对比。涵盖PM、ACD数据集及真实场景样本，展示了基于双状态图像输入的连接图预测与铰链生成结果，红框标记了基线方法的连接错误。

机器人

总结与展望

DIPO通过引入双状态图像这一低成本、高信息的输入模态，结合思维链推理与自动化数据工厂，解决复杂铰链物体生成的难题。这项工作不仅大幅提升了生成资产的结构合理性与运动一致性，更为具身智能仿真环境的快速构建提供了一种高效、可扩展的新范式。DIPO的代码与PM-X数据集已向社区开源，持续推动3D生成与具身智能仿真领域的技术发展。

打开APP阅读更多精彩内容