从 0 到 1 搭建机器人系列 | 利用 NVIDIA Jetson 和硬件加速 SDK 打造自主机器人

NVIDIA英伟达 2023-09-21 1218

描述

问

机器人可以“变身”为咖啡师吗？

答

当然！机器人成为咖啡师的秘密武器是自主机器学习。想象一下，机器人可以在虚拟的“咖啡工坊”里反复练习冲泡咖啡，掌握各种口味和杯型的制作技巧。在你点上一杯咖啡时，机器人早已在虚拟世界里练习过无数遍，瞬间为你准备出美味饮品！

问

那么机器人也可以“眨眼间”成为食品包装专家吗？

答

可以，这多亏了先进的视觉感知和机器学习技术。机器人可以在虚拟的“食品工厂”里学习识别各种食品，掌握最适合的包装方法。从巧克力到薯片，机器人通过仿真训练，早已练就了敏锐的“包装艺术眼”。

在上一篇文章中我们学习了机器人开发的关键一步——利用虚拟环境进行仿真开发与测试。在此系列第三篇中我们将带领大家继续学习如何打造自主机器人，登场的主角是 NVIDIA Jetson 和一系列硬件加速 SDK，旨在将 AI 紧密融入基于 NVIDIA Jetson 的自主机器人系统，推动机器人在感知、决策和交互方面迈向更智能化的未来。

对于 NVIDIA Jetson 来说无需过多赘言，专业开发者利用它在各行各业中创造具有突破性的 AI 产品，学生党和发烧友也使用这一领先的边缘 AI 平台获得 AI 学习方面的实战经验，并实现各种令人惊叹的项目。而在软件层面，NVIDIA JetPack 是 Jetson 平台的基础 SDK，为在 Jetson 上构建 AI 应用程序提供了基础（目前已更新至版本 5.1.2）。它捆绑了所有 Jetson 平台软件，包括 TensorRT、cuDNN、CUDA Toolkit、VPI、GStreamer 和 OpenCV，所有这些软件都建立在 Jetson Linux 之上，带有 LTS Linux 内核。

需要开发者留意的是，每个 Jetson 开发者套件都包含一个连接到参考载板的非生产规格 Jetson 模组，与 JetPack SDK 一起服务于用例在预生产环境中的软件开发和测试。Jetson 模组则普遍用于在使用寿命期间部署到生产环境中，模组出厂时都没有预装软件，开发者可以将其连接到为最终产品设计或采购的载板上，并使用开发的软件映像对其进行闪存。

多样 AI 软件包赋能机器人感知

针对借助 ROS（机器人操作系统）进行实践的开发人群，NVIDIA 也提供了一款基于硬件加速的软件包—— NVIDIA Isaac ROS GEM，可以让 ROS 开发者更轻松地使用 NVIDIA 硬件构建高性能解决方案。这个软件包结合了 ROS 和 NVIDIA 的 Isaac SDK，提供了强大的 AI 开发工具，可以让机器人实现立体视觉测距、自主定位导航、环境感知、目标识别等功能，从而使其能够更好地适应复杂的现实场景，更快速、准确地感知环境并做出智能决策。

利用 Isaac ROS GEM，我们可以轻松地将 AI 赋予借助 ROS 开发的机器人。这个强大的 SDK 为机器人注入了全新的能力，使其能够智能、灵活地与环境互动。

优化视频流解析与分析

自主机器人的智能化与自主性能直接依赖于其对环境的准确感知和智能决策能力，类似“眼”和“大脑”的配合。在这方面，视频流解析扮演了关键的角色，为机器人提供了强大的视觉感知能力，使其能够理解和适应复杂多变的环境。

实时环境感知与障碍物识别：自主机器人在不同的环境中自主导航和操作的能力取决于其对周围环境的实时感知。通过视频流解析，机器人可以从摄像头获取实时图像数据，并利用计算机视觉技术识别环境中的障碍物、道路、标志等。这为机器人实现智能避障、路径规划以及环境理解提供了基础。
目标检测和跟踪：视频流解析技术使得机器人能够识别和跟踪环境中的目标，如人类、其他车辆、动物等。这对于自主导航、协作任务以及监控应用具有重要意义。例如，机器人可以通过识别行人和交通信号灯来安全地穿越交通路口，或者在危险环境中检测并避免风险。
环境建模与导航规划：通过对视频流进行实时解析，机器人可以建立环境模型，包括地图、障碍物、地标等信息。这些环境模型为机器人的自主导航和路径规划提供了依据。机器人可以利用这些信息进行路径优化，选择最佳路径以达到目的地，同时避开障碍物和危险区域。
情境感知和交互增强：视频流解析使得机器人能够更深入地理解周围环境，从而更好地与人类进行交互。例如，机器人可以通过观察人类的面部表情和姿态来识别情绪，进而调整自己的行为以更好地满足人类的需求。这种情境感知和智能交互的能力为机器人赋予了更加亲近和智能的形象。

对于需要处理视频流的机器人，NVIDIA DeepStream SDK 是一款无可比拟的工具。作为一个完整的流分析工具包，DeepStream 用于构建 AI 应用程序，将来自 USB 或 CSI 摄像头、文件或 RTSP 的视频流数据作为输入，并使用 AI 和计算机视觉从像素中生成见解，以便更好地了解环境，成为了许多视频分析解决方案的基础层。对于机器人而言，这意味着它们可以更迅速地分析周围的视觉数据，实现实时的目标识别和追踪。

DeepStream SDK 附带 30 多个示例应用，可以帮助开发者顺利启动开发工作。大多数示例均提供 C/C++、Python 和 Graph Composer 版本，可在 NVIDIA Jetson 平台上运行。

开启自主机器人的

语音与自然语言处理时代

自然语言处理技术是实现智能机器人互动的关键。NVIDIA Riva 是一款用于构建和部署语音 AI 应用的 GPU 加速软件开发工具包，包含了十种语言的预训练模型。它用于自动语音识别（ASR）及文本转语音（TTS），以启用实时语音对话。从虚拟助手到数字虚拟形象再到自主机器人，都可以构建和部署完全可自定义的实时 AI 流程。NVIDIA Riva 的引入，使机器人可以以更自然的方式与人类进行语音对话，实现语音控制、语音搜索等应用，为机器人赋能智能交互带来了前所未有的机会。

通过整合 NVIDIA Jetson 的强大边缘算力和硬件加速 SDK 的优势，我们能够为机器人赋予更高级的自主能力，实现实时的推理和响应，从而在不同的应用场景中获得出色的性能。无论是在自主导航、环境感知、视频分析，还是语音识别等领域，NVIDIA 技术加持的自主机器人都将会带来全新的智能体验。

全面了解 NVIDIA Jetson 平台：

https://www.nvidia.cn/autonomous-machines/embedded-systems/
Isaac ROS GEM——基于硬件加速的软件包，可以让 ROS 开发者更轻松地基于 NVIDIA 硬件构建高性能解决方案：https://developer.nvidia.com/zh-cn/isaac-ros
利用 DeepStream SDK 快速开发和部署视觉 AI 应用和服务（现已更新至版本 6.3）：

https://developer.nvidia.cn/zh-cn/deepstream-sdk
构建定制的实时语音 AI 应用：

https://developer.nvidia.com/zh-cn/riva

打开APP阅读更多精彩内容