一个用于6D姿态估计和跟踪的统一基础模型

描述

0. 笔者个人体会

今天笔者将为大家分享NVIDIA的最新开源方案FoundationPose,是一个用于 6D 姿态估计和跟踪的统一基础模型。只要给出CAD模型或少量参考图像,FoundationPose就可以在测试时立即应用于新物体,无需任何微调,关键是各项指标明显优于专为每个任务设计的SOTA方案。

下面一起来阅读一下这项工作,文末附论文和代码链接~

1. 效果展示

FoundationPose实现了新物体的6D姿态估计和跟踪,支持基于模型和无模型设置。在这四个任务中的每一个上,FoundationPose都优于专用任务的SOTA方案。(·表示仅RGB,×表示RGBD)。这里也推荐工坊推出的新课程《单目深度估计方法:算法梳理与代码实现》。

RGB

2. 具体原理是什么?

为减少大规模训练的人工工作,FoundationPose利用3D模型数据库、大型语言模型和扩散模型等新技术,开发了一种新的合成数据生成Pipeline。为了弥补无模型和基于模型的设置之间的差距,FoundationPose利用以对象为中心的神经场来进行随后的渲染和新视图RGBD渲染。

对于姿态估计,首先在物体周围均匀地初始化全局姿态,然后通过细化网络对其进行细化。最后将改进的位姿转发给姿态选择模块,预测位姿的分数,输出得分最高的位姿。

RGB

3. 和其他SOTA方法对比如何?

YCB-Video数据集上Model-free方案的位姿估计定量结果对比。

RGB

YCB-Video数据集上位姿跟踪的定量对比。这里也推荐工坊推出的新课程《单目深度估计方法:算法梳理与代码实现》。

RGB

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

4. 论文信息

标题:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

作者:Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield

机构:NVIDIA

原文链接:https://arxiv.org/abs/2312.08344

代码链接:https://github.com/NVlabs/FoundationPose








审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分