传统基于帧的图像传感器输出和基于事件的视觉传感器输出对比

新机器视觉 2023-11-16 2940

描述

2021年，索尼半导体解决方案公司（Sony Semiconductor Solutions Corporation，以下简称“索尼”）发布了两款堆叠式基于事件（Event-based）的视觉传感器（EVS）。这两款专为工业设备设计的传感器实现了业界最小（相比其它堆叠式基于事件的视觉传感器）的4.86 μm像素尺寸，并且只有在感知到场景变化时才会进行捕捉记录。

事件相机概述

基于事件的相机是一种生物启发的新型视觉传感器，可实时高效地捕捉场景变化。与基于帧的传统相机不同，事件相机仅报告触发的像素级亮度变化（成为事件），并以微秒级分辨率输出异步事件流。该类视觉传感器已经逐渐成为图像处理、计算机视觉、机器人感知与状态估计、神经形态学等领域的研究热点。

目前被广泛应用的事件相机可大致分为3类：

①动态视觉传感器（DVS dynamic vision sensor），是最基本的也是最先发展的一种事件相机。

②基于异步时间的图像传感器（ATIS asynchronous time based image sensor），它的像素结构分成两个部分（A和B），包含两个感光器，能够在提供事件信息的同时，还能提供一定灰度信息的需求。

③动态主动像素视觉传感器（DAVIS dynamic and active pixel vision sensor），它将DVS相机和传统的有源像素传感器（APS）相机结合起来，能够同时输出场景事件和灰度信息。

图像传感器

传统相机的缺点

帧率低、运动模糊、动态范围低。

1、传统相机，无论是CMOS传感器，还是CCD传感器，亦或是RGBD相机，都有一个参数：帧率。它们是以恒定的频率拍摄获取图像。这样，即使帧率能够达到1KHz，那也具有1ms的延时。

2、传统相机需要通过一定时间的曝光，使感光器件积累一定的光子，那么在曝光时间之内如果物体在高速运动，则会产生模糊。

3、传统相机的动态范围较低，具体表现为在光线极差或者亮度极高时，相机获取的信息有限。

以上三点，是由于相机自身硬件的限制，即使高性能相机能够一定程度减小这些问题，但由于相机原理，这些问题无法避免。这些问题极大地限制了一些应用场景。

事件相机的优点

低延迟、高动态范围、数据量小、极低功耗。

由于事件相机的成像原理，我们可以发现只要亮度一有变化就会输出，且仅输出变化的数据占用了很小的带宽，同时由于事件相机更擅长捕捉亮度变化，所以在较暗和强光场景下也能输出有效数据。事件相机具有低延迟(<㎲)、高动态范围(140dB)、极低功耗(1mW)等特性。

相较于传统相机，事件相机是基于神经形态视觉，其基本理念是受生物系统工作方式的启发，检测场景动态的变化，而不是连续分析整个场景。这意味着让单个像素决定它们是否看到了相关的东西。与固定频率的系统采集相比，这种基于事件的方法可以节省大量的功耗，并减少延迟。

神经形态视觉传感器发展历程

图像传感器

1943 年提出一种具有计算能力的神经元模型，1952年对神经元建立动力学微分方程描述神经元动作电位的产生与传递过程，这个动作电位就叫做脉冲。

1990 年首次在提出神经形态（Neuromorphic）的概念，利用大规模集成电路来模拟生物神经系统，1991 年第一款硅视网膜的诞生，其模拟了视网膜上一些细胞的生物功能，1993 年提出了一种新型的集成电路通信协议，名叫地址事件协议（Address-Event Representation, AER ），实现了事件的异步读出。2003 年有团队设计了一种 AER方式的积分发放的脉冲模型，将像素光强编码为频率或脉冲间隔, 称为章鱼视网膜（ Octopus Retina）。

2005 年研制出动态视觉传感器（Dynamic Vision Sensor, DVS），以时空异步稀疏的事件（Event）表示像素光强变化，2008年提出了一种基于异步视觉的图像传感器（Asynchronous Time-based Image Sensor, ATIS），引入了基于事件触发的光强测量电路来重构变化处的像素灰度。

2013年开发了动态有源像素视觉传感器（ Dynamic and Active Pixel Vision Sensor, DAVIS），这是一种双模的技术路线，增加额外独立的传统图像采样电路弥补 DVS 纹理成像的缺陷，随后在2017年又将其扩展为彩色。

2016年采用了增加事件的位宽，让事件携带像素光强信息输出以恢复场景纹理。2018年有团队采用了章鱼视网膜的光强积分发放采样原理，用脉冲平面传输替换 AER 方式以节约传输带宽，验证了积分型采样原理可高速重构场景纹理细节，也称 Vidar。

DVS的工作原理

发明DVS/EVS的灵感来源于对人眼视网膜细胞的解读。

如下图所示，简而言之，人眼视网膜主要由三层细胞构成：感光细胞层主要负责感光/色。而双极细胞则负责感光细胞的控制和"选择性"读取。输出的信号没什么特别的地方，和我们熟知的CIS系统没有区别，但是CIS研发人员从这个“选择性"读取开始做文章，发现了有些不一样的东西。由于视网膜上的细胞间信号是以"放电”的方式（具体细节请参考神经学等医学书籍对神经元信号传递方式的描述）进行传输，因此与传统CIS的4-APS像素不同，人眼视网膜玩的是电流，而非电压。

图像传感器

受此启发，CIS研发人员对视网膜细胞间工作原理做了个等效的电路对应。感光细胞对应的是以电流作为感应输出的Log像素电路。双极细胞则为一个积分放大器对像素输出的信号“极化"。之后神经元细胞对应的决断电路对"极化”后信号进行“二进制"化，其决断电路简单来说就是1bit的ADC。

图像传感器

整个链路工作效果如下图简述：当光线被PPD感应后，偏置的PPD产生电流。电流的大小随着光的强度变化而变化。值得一说的是，这个变化可不是线性变化，而是由电路设计呈Log函数曲线变化。光强变化越大，电流的增长量反而越小。因此链路中后面的一堆电路主要干的事情就是对电流变化跨过特定的阈值来进行决断。在电流上升时，跨过某个阈值则决断输出+1信号。在电流下降时，则决断输出-1信号。阈值的单位大小可以调整，且跨过阈值这个动作叫做"事件"(Event)。简单来说，就是感应电流变化大小。电流值每跨过一个单位阈值则决断输出一个事件信号，电流变化越大，则输出的事件信号就越多。通过等效电路转换等一连串操作，一个新的对光强变化进行感应的仿生CIS系统诞生，起名为DVS/EVS。

图像传感器

既然这种Sensor是对光强变化进行感应，那如果没有光强变化或者光强变化很弱的话会怎么样呢？答案很简单，就是啥也不输出。没有光强变化或者变化太弱了，DVS/EVS就成了瞎子。

应用

事件相机可应用于特征跟踪、SLAM、捕猎机器人，包括物联网（超低功耗监控和智慧城市）、自动驾驶（车辆测距、SLAM和乘员监控）、机器人技术（场景理解与定位）、工业视觉（过程监控和基础设施检测）等。

事件相机在自动驾驶领域的应用

事件相机具备极快的响应速度、减少无效信息、降低算力和功耗、高动态范围等优势，可以帮助自动驾驶车辆降低信息处理的复杂度、提高车辆的行驶安全，并能够在极亮或者极暗环境下正常工作。

适合落地的场景：

第一，城区场景中的鬼探头。传统帧相机在面对横向的鬼探头场景时，无法快速做出反应，而事件相机可以更快的感知到危险信号。

第二，高速场景下的避障。比如车辆在高速路上快速行驶时，遇到前方路面有一个轮胎，帧相机不能及时做出反应，而事件相机可以依靠它的低时延性优势，快速识别出前方的轮胎，并及时做出避障动作。

第三，光线过亮或者过暗的场景。比如在深夜的环境下，帧相机由于周围极暗的光线而无法识别周围事物，而事件相机依然可以有效的识别周围事物。

第四，光强突变较为明显的场景。比如车辆从隧道出来后，面对高曝光的场景，帧相机会受到高爆光的影响，从而产生失效的工况，而事件相机不会受到影响。

不适合落地的场景：

主要是在城区场景的某些工况下，比如车辆前方有无数行人在穿插过马路。再或者一些恶劣天气环境下，比如大雨、大雪、沙尘等。

以上两种场景下，前方的目标物都存在数量多且无规律运动的特点，这会对事件相机产生很多无效的噪点。

挑战

技术层面

1）无法识别具体目标物：帧相机输出的是帧图像，并且已拥有了成熟的应用和标定数据库；而事件相机只能给出比较原始的数据信息，比如目标物的外部轮廓，并且也没有一个自己独立的数据库来匹配这些轮廓信息。若想要得到更深层次的信息，仍需要帧相机作为辅助，比如先从事件相机识别出前方雪糕筒的形状，而后在经过神经网络算法的训练后，发现该形状与之前的雪糕筒相似，从而判断出前方物体具体是什么。

2）缺少合适的芯片和算法：当前事件相机使用的是原来帧相机的一整套架构体系（比如所使用的芯片类型、算法模型等），但基于帧图像的架构并不能完全处理好事件流，而现有的大部分事件相机产品只是做了简单的架构平移。但两者的工作原理完全不同，若只是简单的架构平移，就如同将一台普通的轿车引擎装在一辆超跑上。

工程层面

1）阈值设定难度高：阈值是衡量事件输出的标准，当目标物的光强变化量（亮度由低到高或者由高到低）超过预设的阈值就会产生事件。其基本的原理是：通过调整阈值可以改变相机对噪点的敏感度，当阈值越大时，相机对噪点越不敏感，能捕捉到的事件也会越少；当阈值越小时，能捕捉到的事件也会越多。在自动驾驶领域，具体如何设定阈值也是一个难题：一方面，车在行驶过程中，与周围的事物始终保持着相对运动，随着物体表面光强亮度的变化就会一直有事件产生，此时阈值应该越大，从而减少噪点；另一方面，事件数据的特点是具有稀疏性（比如一个静止的物体，事件相机只会在t0时刻产生事件，之后就不会有新的事件产生），从冗余安全的角度来看，为了降低数据过少的风险，阈值应该越小

2）数据处理效率低：帧相机处理数据的原理，是在等整张图像处理完了后才能做出决策；而事件相机的数据处理原理是出现一个事件就处理掉一个事件，然后快速地做出决策。但当前的商业应用中，市场上还没有针对事件数据处理的成熟方法，所以已有的事件相机产品都是采用帧相机的数据处理方式来处理事件数据。举例来说，若一个事件相机在60秒内，只有在第60秒才产生一个事件。此时，我们按照30帧的帧率去处理事件数据，就需要将60秒的数据切割成每30秒一组数据，然后在传统的神经网络算法模型下进行运算，可以发现，前一组30秒数据并没有事件产生，但在传统网络模型下前一组数据也必须要进行运算，这就违背了事件相机的处理数据原理，让其丧失了低时延的优势。

3）与其他传感器融合的挑战：由于事件相机无法单独提供深层次的数据，比如测距、测速、表面具体颜色等，只能获取到物体的轮廓，所以单纯地使用一个事件相机是无法给到自动驾驶车辆足够的冗余安全，与其他传感器的融合才是更好的感知方案。在与其它传感器融合时，需要把事件流与其它传感器的信号进行同步匹配。以事件相机与激光雷达的融合为例，事件相机与激光雷达都有帧的概念，激光雷达也是以某一恒定帧率发射点云。若想要把这两个传感器同步起来，就需要做到两个方面：一方面，时间戳的一一对应；另一方面，需要在做好标定的基础上，将事件相机的像素点云映射到激光雷达的点云上。

商业层面

1）应用场景仍较少：在现有相机体系越来越成熟的趋势下，当前事件相机能给自动驾驶能带来的增量价值过小，并且它只能通过与其它传感器融合使用才能发挥更大的价值，但作为新型传感器在进入市场前，事件相机需要经历漫长的场景功能开发，从而慢慢挖掘出一些它的潜在价值。

2）供应链体系不成熟：供应链体系不成熟。事件相机处在早期发展阶段，产品的标准化程度较低，在推广过程中不得不提供一整套解决方案，导致产品的成本较高。以事件相机的算法开发供应商为例，某自动驾驶公司传感器专家提到，现有的事件相机相关的算法开发商，主要是以demo为主，没有针对特定场景去做配套算法的开发。

展望

因为找的一些详细讲事件相机的文献、资料大多数是两三年前的了，所以随着时间推移，人们对于它的探索和发展也有了进一步提升。

在时间域上取值是连续的，但在值域的取值是离散的，这一点也有别于常见的数字信号。这样的数据在处理时已经完全不能用传统RGB相机的方法处理了。但是它仍然能够完成传统相机所能完成的任务，如光流估计、特征提取、三维重建、模式识别、SLAM等。

未来一定是将两种相机各取其长，发挥最大价值。

审核编辑：彭菁

打开APP阅读更多精彩内容