如何提供超低功耗 ML 以实现更有效的嵌入式视觉

杨静 2022-07-14 677

电子说

1.2w人已加入

描述

机器学习算法开辟了一个可能性领域，可以将视觉嵌入到产品中，使我们的家庭、工作空间以及介于两者之间的地方更安全、更高效。为了在更多用例中真正发挥智能视觉的潜力，开发人员需要更节能、更灵活的嵌入式解决方案，这些解决方案可以依靠电池供电，易于安装和维护，同时仍能提供提供有效和智能所需的视觉性能感知我们想要检测和监控的事物。ML 建模和处理的新进展是智能相机广泛采用的关键。

负担得起的远程视觉监控过去意味着红外运动检测器：便宜、自主，但不一定有效。我的一个朋友最近用一套联网的摄像机保护了他的后院。摄像头使用红外运动检测唤醒，然后将视频发送到应用程序。

问题是，他后院的运动检测意味着检测从邻居松鼠到微风中吹来的风铃等一切事物。他的视频剪辑太多了，以至于他可以理解地忽略了它们——包括有一天，一个窃贼从后院闯入他的房子。

直到最近，另一种选择是将视频输入控制室，如果发生重要事情，您可能希望人类观察者会在屏幕上注意到。这种方法提供了更多的保护，但费用和能源消耗要大得多。我们确实需要介于两者之间的东西：便宜、电池供电，但比简单的运动检测更具辨别力。理想情况下，该系统将具有足够的嵌入式智能，首先将事件确定为“真实事件”，然后再唤醒功能更强大的摄像头，该摄像头在向应用程序发送通知后记录和流式传输高分辨率视频。

今天，机器学习技术的巨大进步极大地改进了无人值守的视频分析。现在，带有高性能深度学习推理加速器芯片或与云数据中心的宽带连接的高清摄像头可以显着增强和改进传统的安全和监控方法。事实上，这样的深度学习系统已经展示了非凡的能力：面部识别、手势解释——例如，检测入店行窃——甚至情绪估计——甚至检测入店行窃的诱惑。或许这些能力已经变得有点太了不起了。

但这些系统仍然很昂贵。它们需要外部电源和宽带连接。而且由于它们的能力如此之强，它们会引发安全和隐私问题，这可能会限制它们的部署或增加监管障碍。

天平的另一端，回到那个不起眼的红外运动传感器呢？仍然有许多应用程序只检测一个人的存在——而不识别他们或估计他们的心理特征——就足够了。其中许多应用程序需要外部电源的自主权，并且只能提供有限的连接回网络。许多需要非常低的成本。他们呢？

最近在超低功耗机器学习加速方面取得的重大进展现在可以回答这个问题。

可能受益的应用程序类型

要在上下文中理解这一突破，让我们仔细看看一些用例。例如，在许多安全和安保应用中，重要的是要知道您正在监控的区域是否有人在场。这可能是为了检测入侵者，确保没有人靠近危险设备，或者只是打开一些灯以避免有人在黑暗的房间里绊倒。你并不真正关心这个人是谁，但你也不会对松鼠和管状铃铛的误报感兴趣，比如那些在我朋友后院引发警报的东西。

事实证明，这对于机器学习来说是一个很好的应用——事实上，对于一个非常简单的机器学习模型来说。在这种情况下，模型是一组数据和指令，通过一个称为训练的过程运行大量数据而建立，机器学习系统使用这些数据和指令来生成推理——例如，是的，有人的推理在图像中，或者没有，图像中的人物是老板的金毛猎犬。

大流行创造了另一类应用程序，不幸的是，这些应用程序可能会伴随我们一段时间：社交距离监控。控制进入封闭空间以确保人员不超过容量限制至关重要。要做到这一点，最好的方法是在门口没有人工看守的情况下，是一个可以在人员进出时统计人数的系统。是的，这只是人员检测的另一种用途。这种系统的一个附加功能是检测相关人员是否戴着口罩。对于经过训练的机器学习模型来说，这也是一项相对简单的任务。

事实证明，有一个完全不同的应用领域密切相关。组织已经更加关注他们在办公空间上的花费，并根据空间的使用方式来决定如何最好地优化空间。当办公室经理考虑使用更小（且更便宜）且通常是共享的工作空间时尤其如此。但是你无法优化你无法衡量的东西。突然，有许多新的问题。有人用这个走廊吗？咖啡厅什么时候忙？有多少个热桌可用？三个会议室都被占用多久？此类数据对于在不降低生产力的情况下最大限度地减少办公费用至关重要。同样，您无需识别人员或了解他们在做什么。您只想能够检测到它们的存在。

让我们看一下当今大多数公司所考虑的典型现实情况：一家公司在曼哈顿或旧金山市中心等昂贵的市中心地区的高层建筑中设有办公室。他们有四十个隔间和五个会议室。隔间被占用了工作周的至少一部分。根据高架摄像头的人员检测/计数输入，只有三个会议室的使用率比其他两个多得多。现在，当公司扩大规模，需要再雇用 20 人时，他们可以分析隔间和会议室的实际使用情况，而不是在同一栋大楼中租用另一层楼以支付高额租金。解决方案可能是将其中一个未使用的会议室改造成额外的 20 个隔间，或者提出一种灵活的混合模型，在人们需要时为他们提供工作空间，并最大限度地利用现有隔间。这将导致巨大的成本运营支出节省，并且可以随着容量和劳动力习惯的变化而调整。

检测特定属性

这带来了另一类应用程序：合规性检查。可以训练机器学习系统来检测人的可见属性。此人是否有可见的 ID 徽章？安全帽或呼吸器怎么样？该人是否将点燃的香烟带入易爆气体泄漏的房间？

经验表明，机器学习模型可以比旧式视觉处理软件算法更好地执行这类检测任务。机器学习模型也可以比人类监视器更准确和可靠，尤其是在需要长时间持续关注的情况下。当任务是检测时——不是识别个人、解释手势或其他需要基于大量精细细节进行细微推断的任务——模型可以非常紧凑。

如果模型紧凑，并且如果视频数据以适中的速率进入而不是以 60Hz 的频率涌入，例如逐行扫描 UHD，那么所需的处理能力也可能适中。它需要的不仅仅是一个典型的微控制器芯片所能提供的，但远远低于你从为高性能计算设计的推理加速器或从耗电量大的 GPU 中获得的东西。

这将是应用近年来为超低功耗计算开发的技术的理想场所：存储器、控制器和信号处理器。这些技术可以使机器学习推理加速器足够快地完成视觉检测任务，但功耗却足够低，可用于无人值守的电池供电操作。

加上恰到好处的速度会带来额外的好处。这种设备有限的速度和内存容量使得几乎不可能将芯片用于未经授权的任务，例如面部识别。这一事实可以大大减轻在对隐私监管敏感的领域部署系统的监管负担。

一个可以提供这个的例子

事实上，这样的超低功耗机器学习加速器已经存在：Synaptics 的 Katana KA 10000 SoC。该芯片集成了一组处理器，包括一个 Arm CPU、多个 DSP 内核和一个定制的神经网络加速器，为一系列不同类型的中等规模机器学习模型提供完整的推理加速平台。

到目前为止，这种描述同样适用于许多用于高性能计算的 AI 加速芯片。但是，当您的目标是数月的电池寿命而不是每秒数十次千兆操作时，您必须从一开始就以不同的方式做事。

这意味着从针对低功耗而非最高速度优化的半导体工艺技术开始。这意味着设计的电路只消耗足够的功率来完成手头的任务，并且在不需要时关闭。这意味着选择处理器架构，例如 Arm Cortex-M33 CPU、DSP 内核和专有的神经处理单元，它们可以协作以尽可能少的电池消耗而不是尽可能少的时间延迟来完成给定的推理。它还意味着为摄像头和麦克风提供片上、低功耗存储器和外围接口。

对于将在现场使用的 SoC，处理敏感的个人数据，安全性也是首要考虑的问题。密钥的安全存储、安全启动和代码更新以及硬件辅助加密都是必须在硬件级别解决的问题。

在实践中可以期待什么结果？

那么，专注于超低功耗的成功程度如何？Synaptics 声称 KA10000 可以处理传入的视频并每秒产生 10 次推理，同时使用一块电池运行近三年。

对于非专业软件开发人员来说，所有这些任务都可能令人生畏。该过程可能需要 6 到 9 个月——如果出现任何问题，甚至更长时间——因此部署边缘 AI 设备可能会是一项耗时的工作，将时间表、预算甚至市场窗口都置于风险之中。

成功需要硬件、软件和 IP 提供商的协作生态系统。例如，Synaptics 通过与 Edge Impulse 等 MLOps 公司的合作，帮助加快了这一进程。使用带有 Synaptics 的 Katana 平台的 Edge Impulse 环境，客户可以在几天内制作模型原型，并在几个月内构建生产模型。这意味着差异化、超低功耗边缘人工智能设备的低风险和快速部署。

芯片行业首次响应了廉价自主相机中对有效和特定用例机器学习的需求。现在提供的解决方案以极具吸引力的成本和性能点提供综合但适合普通人的开发环境和完整的神经网络增强 SoC 的组合。这开辟了低功率人体检测和其他视觉检测能力的前沿，将以多种方式改善我们的生活。

审核编辑黄昊宇

打开APP阅读更多精彩内容