DIPO
双状态约束×复杂数据驱动应用于具身智能仿真的3D铰链物体生成新范式
在具身智能从理解环境向与环境交互进化的当下,构建真实且可交互的仿真环境是重要路径。单一刚体生成已难满足需求,机器人需要面对的是柜门、抽屉、微波炉等大量具有物理约束的铰链物体。受限于复杂的运动学结构,高质量3D铰链物体资产极为稀缺。
地平线与合作者们提出DIPO,创新性地利用“静止+活动”双状态图像作为条件,结合思维链(Chainof Thought)图推理,仅需两张图片实现结构合理、运动一致、可供机器人交互操作的铰链3D资产生成。此外,还打造了自动化铰链资产构建链路,开源了大规模复杂铰链物体数据集PM-X。为机器人操作和通用场景仿真下的铰链物体生成开启了新的范式。该成果已被学术顶会NeurIPS2025录用。
• 技术报告:
https://arxiv.org/abs/2505.20460
• Huggingface Demo:
https://huggingface.co/spaces/HorizonRobotics/DIPO
• PM-X数据集:
https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset
• 项目主页:
https://rq-wu.github.io/projects/DIPO
行业痛点:3D铰链物体的资产荒
迈向通用具身智能,需要机器人需要在仿真环境中与冰箱、烤箱等复杂铰链(可活动关节)物体进行深度交互训练。然而此类资产的构建面临“采集难、建模慢、数据简”的挑战:真实物体的关节参数与运动范围测量成本极高;人工逐件装配与URDF标注耗时费力;主流数据集(如 PartNet-Mobility)平均部件数不足5个,其低复杂度结构滞后于真实世界的物理多样性,严重制约了智能体的场景泛化能力。
模型方案:双状态输入+思维链推理
DIPO摒弃了“单图猜结构”的传统路径,开辟了一条新的技术路线:通过输入物体“静止状态图”与“关节活动状态图”这一对双状态图像,显式编码关键的运动信息。

提出了一个双状态注入模块,通过注意力机制让模型学习“静止”与“活动”两张图像之间的差异,捕捉图像对间的关联特征,从而生成可靠的部件布局与关节参数。为了解决复杂物体部件连接关系(如多层抽屉、双开门)的识别难题,DIPO引入了基于思维链的图推理器。 这个推理器模拟了人类的认知过程,分步骤进行逻辑推断,大幅提升了模型对复杂拓扑结构的理解的准确性。
数据引擎:自动化构建复杂资产
为了增强模型对复杂物体的泛化能力,靠现有的简单数据集(如 PartNet-Mobility)是远远不够的。为此,DIPO提出了一套全自动的数据集构建流程。

基于此流程,发布了大规模数据集PM-X。该数据集单个铰链物体平均部件数达到19.4个,现有数据集仅为5-8个,极大地丰富了训练数据的结构多样性与生成模型的泛化性。

实验结果:SOTA 性能表现
实验表明,DIPO在多项指标上均超越了现有最先进方法,在PartNet-Mobility测试集与分布外的ACD测试集上,重建指标与图预测准确率均显著高于基线方法。


DIPO与基线模型的可视化对比。 涵盖PM、ACD数据集及真实场景样本,展示了基于双状态图像输入的连接图预测与铰链生成结果,红框标记了基线方法的连接错误。

总结与展望
DIPO通过引入双状态图像这一低成本、高信息的输入模态,结合思维链推理与自动化数据工厂,解决复杂铰链物体生成的难题。这项工作不仅大幅提升了生成资产的结构合理性与运动一致性,更为具身智能仿真环境的快速构建提供了一种高效、可扩展的新范式。DIPO的代码与PM-X数据集已向社区开源,持续推动3D生成与具身智能仿真领域的技术发展。
全部0条评论
快来发表一下你的评论吧 !