基于NVIDIA Jetson的机器人面临的结果、系统和挑战

星星科技指导员 2022-04-13 5097

描述

进行高精度的实时推理是一项具有挑战性的任务，尤其是在能见度较低的环境中。借助 NVIDIA Jetson 嵌入式平台，最近结束的国防高级研究计划局（ DARPA ）地下挑战赛（ SubT ）团队能够以高精度和高吞吐量检测感兴趣的物体。在这篇文章中，我们将介绍在系统竞赛的最后一站中团队所面临的结果、系统和挑战。

SubT 挑战赛是由 DARPA 组织和协调的国际机器人竞赛。该竞赛鼓励研究人员为机器人开发新的方法来绘制、导航和搜索环境，这些环境会带来各种挑战，例如能见度低、存在危险、地图未知或通信基础设施差。

2019 冠状病毒疾病包括三个初步的电路事件：隧道电路、城市电路和洞穴电路（由于 COVID-19 大流行而取消），以及最终的综合挑战课程。每个赛道和决赛都在不同的环境和不同的地形中举行。据活动组织者介绍，比赛在 3 个不同的阶段举行， 2021 九月在 KY 。路易斯维尔举行了最后一场比赛。

SubT Challenge 的竞争对手利用 NVIDIA 技术满足其硬件和软件需求。团队使用桌面/服务器 GPU 来训练使用 NVIDIA Jetson 嵌入式平台部署在机器人上的模型，以实时检测感兴趣的工件和对象，这是确定获胜团队的主要标准。七分之五的竞争对手也使用 Jetson 平台进行实时目标检测。

次级挑战

SubT 挑战的灵感来自于第一响应者在搜索救援行动或灾难响应期间面临的真实场景。

通过本次比赛开发的最先进的方法将有助于降低搜索救援人员和急救人员在探索未知地下环境时的伤亡风险。此外，自动机器人将协助工作人员探索环境，寻找幸存者、感兴趣的物体，并进入对人类有风险的地点。

NVIDIA

图 1 。 DARPA 地下挑战探索了绘制、导航和搜索复杂地下环境的创新方法和新技术。 – 图片由 DARPA 提供。

技术挑战

这场比赛包含了各种技术挑战，比如应对一些机器人可能无法轻松操纵的未知、无结构和不平的地形。

这些环境通常没有任何与中央司令部通信的基础设施。从感知角度来看，这些环境的可见度很低，机器人必须找到感兴趣的工件和物体。

竞争团队的任务是通过开发新型传感器融合方法，以及开发新的或修改现有机器人平台来应对这些挑战，这些平台具有不同的定位和检测感兴趣对象的能力。

CERBERUS 团队

CERBERUS 团队（用于地下环境中自主探索的协作步行和飞行机器人）是世界各地多所大学和工业组织的联合财团。

该团队与四个名为 ANYmal 的四足机器人、五个主要由内部制造、具有可变大小和有效载荷能力的无人机，以及一个超级巨型机器人形式的漫游机器人一起参加了比赛。在比赛决赛中，该团队最终使用了四个 ANYmal 机器人和超级巨型机器人进行探索和人工制品检测。

每个 ANYmal 机器人都配备了两台基于 CPU 的计算机和一台 NVIDIA Jetson AGX Xavier 。漫游者机器人配备了 NVIDIA GTX 1070 GPU 。

CERBERUS 团队使用改进版的 You Only Look One （ YOLO ）模型进行目标检测。该模型使用两个 NVIDIA RTX 3090 GPU 在 40000 个标记图像上进行训练。

在部署到 Jetson 上进行实时推理之前，使用 TensorRT 对训练后的模型进行了进一步优化。 Jetson AGX Xavier 能够以 20 赫兹的集体频率进行推理。在比赛总决赛中， CERBERUS 团队率先发现了环境中 40 件文物中的 23 件，夺得了第一名。

CERBERUS 团队还使用 GPU 绘制地形高程图，并训练 ANYmal 四足机器人的移动策略控制器。使用 Jetson AGX Xavier 实时绘制高程图。 ANYmal 机器人在崎岖地形下的移动策略训练是使用桌面 GPU 离线完成的。

团队联袂主演

在南加利福尼亚州 NASA 喷气推进实验室（ JPL ）的研究人员以及其他大学和工业合作者的带领下，团队合作地下自主机器人（ Co STAR ）在 2020 年的比赛中获胜，该比赛专注于探索复杂的地下城市环境。

他们还成功地参加了 2021 届混合人工和自然环境的比赛，排名第五。联袂主演的团队带着四个位置、四个哈士奇机器人和两架无人机参加了比赛。

在最后一轮中，由于意外的硬件问题，团队最终使用了一个 Spot 和三个哈士奇机器人。每个机器人都配备了一台基于 CPU 的计算机以及一台 NVIDIA Jetson AGX Xavier 。

在目标检测方面，该团队使用 RGB 和热图像。他们使用 YOLO v5 模型的中型变体来处理高分辨率图像以进行实时推断。该团队训练了两种不同的模型，对捕获的 RGB 和热图像进行推理。

基于图像的模型使用约 54000 个标记帧进行训练，而热图像模型使用约 2400 个标记图像进行训练。为了训练模型在他们的定制数据集上，团队 Co Star 使用了在 COCO 数据集上的预训练的 YOLO V5 模型，并使用NVIDIA 传输学习工具包（称为 TAO 工具包）进行传输学习。

使用两个内部部署的 NVIDIA A100 GPU 和一个由八个 V100 GPU 组成的 AWS 实例对模型进行训练。在 Jetson AGX Xavier 上部署模型之前，团队使用 TensorRT 修剪模型。

使用这种设置，团队合作星能够在 28 赫兹的频率下对五台 RealSense 相机接收到的 RGB 图像和一台热敏相机接收到的图像进行推断。在最后一次运行中，机器人能够检测到指定区域中存在的所有 13 个工件。由于部署现场意外的硬件问题导致部署延迟，因此勘探时间有限。

配备 NVIDIA Jetson 平台和NVIDIA GPU 硬件，在 DARPA SUT 事件中竞争的团队能够有效地训练模型以进行实时推理，解决地下环境所带来的挑战与精确的目标检测。

关于作者

Mitesh Patel 是 NVIDIA 的开发者关系经理，他与高等教育研究人员合作，使用 NVIDIA SDK 和平台执行他们的想法。在加入NVIDIA 之前，他是富士施乐帕洛阿尔托实验室有限公司的高级研究科学家，致力于开发室内本地化技术，用于医院的资产跟踪和制造设施的送货车跟踪等应用。 Mitesh 于 2014 在澳大利亚悉尼科技大学获得了来自自动系统中心（ CAS ）的机器人学博士学位。

审核编辑：郭婷

打开APP阅读更多精彩内容