视觉的未来：边缘AI为数据密集型应用扫除障碍

Arm社区 2023-12-05 1099

描述

一个极具前景的物联网人工智能 (AI) 视觉技术应用——通过采集店内消费者的数据，帮助零售商利用这些视频数据，更快速、更高效地优化产品陈列、布局动线和客户体验。

但同时也面临着两个主要挑战：成本和复杂性。假设一家大型超市想要采集客流量、消费者购买记录及其它数据，则需要在店内安装大约 15,000 个摄像头。对于每秒 30 帧的 4K 视频，15,000 个摄像头每秒将产生 225 GB 的数据。

相较于其它形式的数据，视频的数据量十分庞大，处理流程也相当复杂，包括图像识别、物体检测和场景分析。这些 AI 视觉任务需要先进的算法和模型支持，这让计算变得更为复杂。此外，这类大数据需要传送回云端进行高效计算，再发送回来，以便进行决策判断。显然，每秒 225 GB 的数据并不具有经济性。

但现在早已不是 2018 年了。在过去五年中，上述的场景发生了巨大的变化。现在，结合 AI 与机器学习 (ML)[1]，经过不断提升后的边缘处理能力可实现更高的效率，意味着许多极具前景的视觉应用在以往所面临的巨大经济性障碍正在被逐步扫除。

释放边缘 AI 视觉的创新力

此前，很多关键性技术都各自为政，几乎很难或根本不可能与其它重要组件相互集成，以实现一个无缝创新的生态系统。在同质处理的环境中，人们用一个解决方案来满足所有的需求，但这对于不同的视觉工作负载提供定制化解决方案的实现，是极其困难的。那现如今有什么不同呢？

工程师和开发者们已攻克了成本、复杂性及其它一些难题。以复杂性这一挑战为例。降低视觉解决方案的成本和复杂性的途径之一是，为开发者在边缘解决方案（异构计算）的实施过程中提供更高的灵活性。

芯片设计公司正在生产性能更加强大的处理器，带来了更高计算性能的同时维持高能效表现。这些处理器包括 CPU、GPU、ISP 和加速器，能够在一些资源受限的环境下处理 AI 和 ML 等复杂任务。此外，通过 AI 加速器，无论是作为 SoC 内核，还是作为独立的 SoC，均能够在边缘高效地执行 AI 算法。

解决复杂性

谈到复杂性方面的问题。2022 年，Arm 推出了 Arm Mali-C55，这是 Arm 迄今推出的最小芯片面积下，可实现高性能表现的图像信号处理器 (ISP)。该处理器集高图像质量、高吞吐量、高能效和芯片面积优势于一体，适合端点 AI、智能家居摄像头、AR/VR 和智能显示屏等应用。该处理器的吞吐量高达 1.2Gpix/sec (每秒 12 亿像素)，可带来更高的性能表现，是严苛的视觉处理任务的理想之选。在向异构计算推进过程中，Mali-C55 的设计用途之一便是搭配 Cortex-A 或 Cortex-M CPU，无缝集成到 SoC 设计中。

这一点非常关键，因为在 SoC 中，ISP 的输出通常被直接发送至 ML 加速器中，以便通过神经网络或类似算法做进一步的处理。这涉及到为 ML 模型提供缩放图像，以处理诸如物体检测和姿态估计等任务。

这种协同作用反过来又催生了具备 ML 功能的摄像头和“软件定义摄像头”的概念，使 OEM 厂商和服务提供商能够在全球范围内部署摄像头，并提供具备动态功能增强的迭代功能和商业模式。

举个例子，假设在一个停车场，每个车位上方都安装了摄像头，用于判断该车位是否泊车。在 2018 年，这是种不错的解决方案，驶入停车场的驾驶员能够一眼看到哪里有空余车位。但在 2023 年，这种解决方案已不具经济性。利用边缘 AI 的概念，仅在每一层的出入口放置一到两个摄像头，利用 AI 算法算出剩余空车位，这样的方案才符合 2023 年的思维模式。

再次回到大型超市的场景：15,000 个摄像头每秒产生 225 GB 的数据。现在你应该知道如何提供解决方案了吧？

亚马逊早已意识到这一问题，在其最新版本的 “Just Walk Out” 商店技术中，摄像头模块的计算能力已得到提升。将 AI 部署在边缘侧，以实现更高效、更快速的计算。

借助这样强大且经济高效的视觉技术，超市零售商或许可以通过分析店内摄像头记录下的视频数据，进行分析、得到结论，举例来说，大多数顾客会在上午 9 点至 11 点之间购买橙子，继而确定在每天中午前后需要补充货架上的橙子。通过进一步分析，零售商发现很多顾客（出于隐私原因而在视频数据中匿名）在同一次购物期间还会购买花生。由此，可以根据这些反馈对商品的陈列进行调整。

适当的位置，准确的计算

将适当的边缘 AI 计算[2]部署在更靠近传感器的位置，能减少延迟性，提高安全性并降低成本，还可以催生新的业务模式。

视频监控即服务 (VSaaS)[3] 便是由此诞生的一种业务模式。VSaaS 包含视频录制、存储、远程管理及网络安全的配置，将本地摄像头与云端的视频管理系统相结合。根据 Transparency Market Research[4] 预测，截至 2027 年，VSaaS 市场规模将达到 1,320 亿美元。

然而，从更广泛的角度来看，许多蕴含巨大机遇仍尚未爆发。受限于经济、处理能力的限制或纯粹的复杂性等因素，许多强大的潜在应用仍在等待迎风而上。比如：

智慧城市：在智慧城市领域，通过视频分析实现交通管理、人流分析和停车空间优化，由此产生海量数据。

工业自动化：质量控制、缺陷检测和流程优化。

自动驾驶汽车：自动驾驶汽车（比如自动驾驶汽车和无人机）上的传感器和摄像头，为导航和安全系统采集数据，实时感知周围情况。

虚拟现实 (VR) 和增强现实 (AR)：沉浸式 VR 和 AR 体验需要实时渲染和处理高分辨率视觉内容，因此会生成大量数据。

走在前沿的实践者不会作壁上观。在韩国平泽市，该市的政府计划利用 AI 和自动驾驶等智慧城市技术构建试点平台，并将于 2025 年完成，之后计划逐步在全市进行普及。

这座拥有五十万人口的城市正努力应对交通拥堵和交通事故导致的行人意外死亡问题。作为全市“智慧城市”改革的一部分，专家们在视觉设备中部署了 Arm 合作伙伴 Nota.ai 的 Nespresso 平台[5]，这是一种 AI 模型自动压缩解决方案，有助于打造智能交通系统。

在设备方面，诸多巧妙的设计正在助力客户实现视觉愿景。例如奇景光电 (Himax) 的 WiseEye-II，这是一款智能影像感测方案，可部署在一系列由电池驱动的消费类和家庭安防应用中，包括笔记本电脑、门铃、门锁、摄像头和智能办公室。该解决方案与 Arm 微控制器和神经处理器内核相结合，使机器视觉 AI 更深入地融合到消费类和智能家居设备中。

得益于边缘 AI 技术取得的惊人进步，当下正在开发的示例和为未来创新所做的设计正逐步成为现实。而在视觉领域，这些技术正在基于 Arm 架构而构建。

除了硬件，Arm 还通过软件库、互联标准、安全框架和 Arm 虚拟硬件等开发工具，帮助开发者更快速、更高效地开发图像解决方案，开发者无需等待硬件就绪，便可在目标架构上对其应用进行虚拟化运行。

过去，人们曾希望利用视觉技术改变世界，挖掘未曾被开发的大量数据，但由于成本和复杂性，这一梦想被认为遥不可及。但现在，它们已成为现实。

打开APP阅读更多精彩内容