NVIDIA Jetson TX2为边缘提供双倍的智能

描述

在旧金山举行的 AI 聚会上,NVIDIA 推出了 Jetson TX2 和 JetPack 3.0 AI SDK。Jetson 是世界领先的低功耗嵌入式平台,可为各地的边缘设备提供服务器级的 AI 计算性能。Jetson TX2 具有集成的 256 核 NVIDIA Pascal GPU、六核 ARMv8 64 位 CPU 复合体和 8GB 具有 128 位接口的 LPDDR4 内存。CPU 综合体结合了双核 NVIDIA Denver 2 和四核 Arm Cortex-A57。Jetson TX2 模块(如图 1 所示)适合 50 x 87 毫米、85 克和 7.5 瓦的典型能源使用量的小尺寸、重量和功率 (SWaP) 占位面积。

物联网 (IoT) 设备通常用作中继数据的简单网关。他们依靠云连接来执行繁重的工作和数字运算。边缘计算是一种新兴的范式,它使用本地计算在数据源上进行分析。Jetson TX2 具有超过 TFLOP/s 的性能,非常适合将高级 AI 部署到互联网连接较差或昂贵的远程现场位置。Jetson TX2 还提供近乎实时的响应能力和最小的延迟——这对于需要关键任务自主权的智能机器而言至关重要。

Jetson TX2 基于 16nm NVIDIA Tegra“Parker”片上系统 (SoC)(图 2 显示了框图)。Jetson TX2 在深度学习推理方面的能效是其前身 Jetson TX1 的两倍,并提供比英特尔至强服务器 CPU 更高的性能。这种效率的飞跃重新定义了将高级人工智能从云端扩展到边缘的可能性。

AI

图 2:NVIDIA Jetson TX2 Tegra “Parker” SoC 框图,具有集成的 NVIDIA Pascal GPU、NVIDIA Denver 2 + Arm Cortex-A57 CPU 集群和多媒体加速引擎(点击图片查看完整分辨率)。

Jetson TX2 具有多个多媒体流引擎,可通过卸载传感器采集和分发来为其 Pascal GPU 提供数据。这些多媒体引擎包括六个专用 MIPI CSI-2 摄像头端口,每个通道的带宽高达 2.5 Gb/s,双图像服务处理器 (ISP) 的处理速度为 1.4 gigapixels/s,以及支持 H.265 的 4K 视频编解码器每秒 60 帧。

Jetson TX2 使用 NVIDIA cuDNN 和 TensorRT 库加速尖端的深度神经网络 (DNN) 架构,并支持 循环神经网络 (RNN)、 长短期记忆网络 (LSTM)和在线 强化学习。其双 CAN 总线控制器可实现自动驾驶集成,以控制使用 DNN 感知周围世界并在动态环境中安全运行的机器人和无人机。Jetson TX2 软件通过 NVIDIA 的 JetPack 3.0 和 Linux For Tegra (L4T) 板级支持包 (BSP) 提供。

表 1 比较了 Jetson TX2 与上一代 Jetson TX1 的特性。

AI

性能翻倍,效率翻倍

在我 关于 JetPack 2.3 的帖子中,我展示了 NVIDIA TensorRT 如何以比桌面级 CPU 高 18 倍的效率提高 Jetson TX1 深度学习推理性能。TensorRT 通过使用图形优化、内核融合、 半精度浮点计算 (FP16)和架构自动调整来优化生产网络以显着提高性能。除了利用 Jetson TX2 对 FP16 的硬件支持外,NVIDIA TensorRT 还能够同时批量处理多个图像,从而获得更高的性能。

Jetson TX2 和 JetPack 3.0 共同将 Jetson 平台的性能和效率提升到一个全新的水平,为用户提供获得两倍于 Jetson TX1 的效率或高达两倍于 AI 应用程序性能的选项。这种独特的功能使 Jetson TX2 成为需要在边缘高效 AI 的产品和需要在边缘附近获得高性能的产品的理想选择。Jetson TX2 还与 Jetson TX1 直接兼容,并为使用 Jetson TX1 设计的产品提供了轻松升级的机会。

为了对 Jetson TX2 和 JetPack 3.0 的性能进行基准测试,我们将其与服务器级 CPU、Intel Xeon E5-2690 v4 进行比较,并使用 GoogLeNet 深度图像识别网络测量深度学习推理吞吐量(每秒图像数)。如图 3 所示,以不到 15 W 的功率运行的 Jetson TX2 优于以近 200 W 的功率运行的 CPU,从而在边缘实现数据中心级 AI 功能。

AI

图 3:在 NVIDIA Jetson TX2 和 Intel Xeon E5-2960 v4 上分析的 GoogLeNet 网络架构的性能。

Jetson TX2 这种卓越的 AI 性能和效率源于新的 Pascal GPU 架构和动态能量配置文件(Max-Q 和 Max-P)、JetPack 3.0 附带的优化深度学习库以及大内存带宽的可用性。

Max-Q 和 Max-P

Jetson TX2 旨在实现 7.5W 功率下的峰值处理效率。这种性能水平(称为 Max-Q)代表了功率/吞吐量曲线的峰值。模块上的每个组件(包括电源)都经过优化,可在此时提供最高效率。GPU 的 Max-Q 频率为 854 MHz,而 Arm A57 CPU 的 Max-Q 频率为 1.2 GHz。JetPack 3.0 中的 L4T BSP 包括用于将 Jetson TX2 设置为 Max-Q 模式的预设平台配置。JetPack 3.0 还包括一个新的命令行工具nvpmodel ,用于在运行时切换配置文件。

虽然动态电压和频率缩放 (DVFS) 允许 Jetson TX2 的 Tegra “Parker” SoC 在运行时根据用户负载和功耗调整时钟速度,但 Max-Q 配置设置了时钟上限以确保应用程序正常运行仅在最有效的范围内。表 2 显示了 Jetson TX2 和 Jetson TX1 在运行 GoogLeNet 和 AlexNet 深度学习基准时的性能和能效。在 Max-Q 模式下运行的 Jetson TX2 的性能与在最大时钟频率下运行的 Jetson TX1 的性能相似,但仅消耗一半的功率,从而使能效提高了一倍。

尽管大多数功率预算有限的平台将从 Max-Q 行为中获益最多,但其他平台可能更喜欢使用最大时钟来获得峰值吞吐量,尽管功耗更高且效率降低。DVFS 可以配置为以一系列其他时钟速度运行,包括降频和超频。Max-P 是另一种预设平台配置,可在不到 15W 的情况下实现最大系统性能。当启用 Arm A57 集群或 Denver 2 集群时,GPU 的 Max-P 频率为 1122 MHz,CPU 的 Max-P 频率为 2 GHz;同时启用两个集群时,Max-P 频率为 1.4 GHz。您还可以创建具有中频目标的自定义平台配置,以便在您的应用程序的峰值效率和峰值性能之间取得平衡。

AI

Jetson TX2 执行 GoogLeNet 推理的速度高达 33.2 图像/秒/瓦,效率几乎是 Jetson TX1 的两倍,比英特尔至强效率高近 20 倍。

端到端人工智能应用

Jetson TX2 的高效性能不可或缺的是两个 Pascal 流式多处理器 (SM),每个处理器具有 128 个 CUDA 内核。Pascal GPU 架构提供了重大的 性能改进和功耗优化。TX2 的 CPU 复合体包括一个双核 7 路超标量 NVIDIA Denver 2,通过动态代码优化实现高单线程性能,以及一个面向多线程的四核 Arm Cortex-A57。

连贯的 Denver 2 和 A57 CPU 各有一个 2MB L2 高速缓存,并通过 NVIDIA 设计的高性能互连结构进行链接,以使两个 CPU 在异构多处理器 (HMP) 环境中同时运行。一致性机制允许任务根据动态性能需求自由迁移,有效利用 CPU 内核之间的资源,减少开销。

Jetson TX2 是自主机器端到端 AI 管道的理想平台。Jetson 用于流式传输实时高带宽数据:它可以同时从多个传感器摄取数据,并在 GPU 上处理数据后执行媒体解码/编码、网络和低级命令和控制协议。图 4 显示了使用一系列高速接口(包括 CSI、PCIe、USB3 和千兆以太网)连接传感器的常见管道配置。CUDA 预处理和后处理阶段通常包括色彩空间转换(成像 DNN 通常使用 BGR 平面格式)和网络输出的统计分析。

AI

图 4:端到端 AI 管道,包括传感器采集、处理、命令和控制。

Jetson TX2 的内存和带宽是 Jetson TX1 的两倍,能够同时捕获和处理额外的高带宽数据流,包括立体摄像机和 4K 超高清输入和输出。通过管道深度学习和计算机视觉将来自不同来源和光谱域的多个传感器融合在一起,提高自主导航期间的感知和态势感知。

Jetson TX2 开发人员套件入门

首先,NVIDIA 提供了 Jetson TX2 开发人员套件 ,其中包括一个参考 mini-ITX 载板(170 毫米 x 170 毫米)和一个 5 兆像素的 MIPI CSI-2 摄像头模块。开发工具包包括文档和设计原理图以及 JetPack-L4T 的免费软件更新。图 5 展示了开发人员套件,显示了 Jetson TX2 模块和标准 PC 连接,包括 USB3、HDMI、RJ45 千兆以太网、SD 卡和 PCIe x4 插槽,这使得为 Jetson 开发应用程序变得容易。

要从开发转向定制部署平台,您可以修改开发工具包载板和相机模块的参考设计文件以创建定制设计。或者,Jetson 生态系统合作伙伴提供现成的解决方案,用于部署 Jetson TX1 和 Jetson TX2 模块,包括微型载体、外壳和摄像头。NVIDIA 开发者论坛 提供技术支持和与 Jetson 构建者和 NVIDIA 工程师社区合作的场所。 表 3 列出了主要文档和有用的资源。

AI

Jetson TX2 开发人员套件可通过NVIDIA 在线商店预订,价格为 599 美元 。北美和欧洲将于 3 月 14 日开始发货,其他地区也将陆续发货。还提供 Jetson TX2 教育折扣 :299 美元适用于学术机构的附属机构。NVIDIA 已将 Jetson TX1 开发者套件的价格降至 499 美元。

JetPack 3.0 SDK

最新的 NVIDIA JetPack 3.0 使 Jetson TX2 能够使用行业领先的 AI 开发人员工具和硬件加速 API(见表 4),包括构建在 Linux 之上的 NVIDIA CUDA Toolkit 8.0 版、cuDNN、TensorRT、VisionWorks、GStreamer 和 OpenCV内核 v4.4、L4T R27.1 BSP 和 Ubuntu 16.04 LTS。Jetpack 3.0 包括用于交互式分析和调试的 Tegra System Profiler 和 Tegra Graphics Debugger 工具。Tegra Multimedia API 包括低级摄像头捕获和 Video4Linux2 (V4L2) 编解码器接口。闪烁时,JetPack 会自动使用选定的软件组件配置 Jetson TX2,从而实现开箱即用的完整环境。

AI

Jetson 是用于部署 Caffe、Torch、Theano 和 TensorFlow 等深度学习框架的高性能嵌入式解决方案。这些和许多其他深度学习框架已经将 NVIDIA 的 cuDNN 库与 GPU 加速集成在一起,并且只需极少的迁移工作即可在 Jetson 上进行部署。Jetson 采用 NVIDIA 的共享软件和硬件架构,通常在 PC 和服务器环境中使用,以在整个企业中无缝扩展和部署从云和数据中心到边缘设备的应用程序。

两天的演示

NVIDIA 为期两天的演示 计划旨在帮助任何人开始部署深度学习。NVIDIA 提供计算机视觉原语,包括图像识别、对象检测+定位、分割和使用DIGITS训练的 神经网络模型。您可以将这些网络模型部署到 Jetson,以使用NVIDIA TensorRT进行高效的深度学习推理 。两天演示提供示例流应用程序,以帮助您试验实时摄像头馈送和真实世界数据,如图 6 所示。

GitHub 上提供了为期两天的演示代码 ,以及易于遵循的分步说明,用于测试和重新训练网络模型,为您的自定义主题扩展视觉原语。这些教程说明了 DIGITS 工作流的强大概念,向您展示如何在云或 PC 上迭代训练网络模型,然后将它们部署到 Jetson 以进行运行时推理和进一步的数据收集。

使用预先训练的网络和迁移学习,此工作流可以轻松地根据您的任务定制基础网络,并使用自定义对象类。一旦针对某个原语或应用程序证明了特定的网络架构,给定包含新对象的示例训练数据,为特定用户定义的应用程序重新调整用途或重新训练它通常会容易得多。

正如 这篇 Parallel Forall 博客文章中所讨论的,NVIDIA 已为 DIGITS 5 添加了对分段网络的支持,现在可用于 Jetson TX2 和为期两天的演示。分割原语使用全卷积 Alexnet 架构 (FCN-Alexnet) 对视野中的单个像素进行分类。由于分类发生在像素级别,而不是图像识别中的图像级别,因此分割模型能够提取对其周围环境的全面理解。这克服了自主导航机器人和无人机所面临的重大障碍,这些机器人和无人机可以直接使用分割场进行路径规划和避障。

分段引导的自由空间检测使地面车辆能够安全地导航地平面,而无人机则可以视觉识别并跟随地平线和天空平面,以避免与障碍物和地形发生碰撞。感知和避免功能是智能机器与其环境安全交互的关键。在 Jetson TX2 上使用 TensorRT 处理机载计算要求高的分段网络对于避免事故所需的低响应延迟至关重要。

两天演示包括使用 FCN-Alexnet 的航空分割模型,以及相应的地平线第一人称视图 (FPV) 数据集。空中分割模型可用作无人机和自主导航的示例。您可以使用自定义数据轻松扩展模型,以识别用户定义的类,如着陆垫和工业设备。以这种方式增强后,您可以将其部署到配备 Jetson 的无人机上,例如 Teal 和 Aerialtronics的无人机。

为了鼓励开发其他自主飞行控制模式,我在 GitHub 上发布了空中训练数据集、分割模型和工具。NVIDIA Jetson TX2 和 为期两天的演示 让您可以比以往更轻松地开始使用该领域的高级深度学习解决方案。

Jetson 生态系统

Jetson TX2 的模块化外形使其可部署到各种环境和场景中。来自 Jetson TX2 开发人员套件的 NVIDIA 开源参考载体设计为缩小或修改设计以满足个别项目要求提供了一个起点。一些小型化载体具有与 Jetson 模块本身相同的 50x87mm 占用空间,从而实现紧凑的组装,如图 8 所示。使用 NVIDIA 提供的文档和设计资料制作您自己的产品,或尝试现成的解决方案。4 月,NVIDIA 将分别以 299 美元和 399 美元的价格提供 Jetson TX1 和 TX2 模块,批量为 1000 件或更多。

AI

图 8:适用于 Jetson TX2 和 Jetson TX1 的 ConnectTech

生态系统合作伙伴 ConnectTech 和 Auvidea 提供与 Jetson TX1 和 TX2 共享插座兼容的可部署微型载体和外壳,如图 8 所示。成像合作伙伴 Leopard Imaging 和 Ridge Run 提供相机和多媒体支持。加固专家 Abaco Systems 和 Wolf Advanced Technology 提供 MIL 规格认证,可在恶劣环境中运行。

可扩展阵列在 1U 中提供 24 个 Jetson 插槽,具有 10 Gb 网络、被动冷却和节能绿色 HPC。

除了旨在部署到现场的紧凑型载体和外壳之外,Jetson 生态系统的范围还超出了典型嵌入式应用程序的范围。Jetson TX2 的多核 Arm/GPU 架构和卓越的计算效率也引起了高性能计算 (HPC) 行业的关注。高密度 1U 机架式服务器现在可提供 10 Gb 以太网和多达 24 个 Jetson 模块。图 9 显示了一个示例可扩展阵列服务器。Jetson 的低功耗和被动冷却对于轻量级、可扩展的云任务(包括低功耗 Web 服务器、多媒体处理和分布式计算)具有吸引力。

边缘的人工智能

Jetson TX2 无与伦比的嵌入式计算能力将尖端 DNN 和下一代 AI 带入了板载边缘设备。Jetson TX2 以高能效提供服务器级性能,触手可及。它的原始深度学习性能比英特尔至强高出 1.25 倍,计算效率高出近 20 倍。Jetson 紧凑的占地面积、计算能力和具有深度学习的 JetPack 软件堆栈使开发人员能够使用 AI 解决 21 世纪的挑战。

关于作者

Dustin 是 NVIDIA Jetson 团队的一名开发人员推广员。Dustin 拥有机器人技术和嵌入式系统方面的背景,喜欢在社区中提供帮助并与 Jetson 合作开展项目。

审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分