事件相机的原理与处理范式

新机器视觉 2022-05-31 6531

描述

佐思周彦武老师的事件相机，引发了对帧事件的思考。基于该思考，对事件相机做一个整理，具体算法不去解释。主要参考《Event-based Vision： A Survey》

事件相机最初是神经形态学工程的一个产物，主要是利用VLSI（Very Large Scale Integration）去模拟、实现人与其他动物大脑中的某些神经元构造，如人眼只关注相对运动的物体，而不去关心相对静止的物体，这里的相对运动使用脉冲编码方式来实现（即事件相机）。

事件相机与传统相机存在很大的差别，相比于传统相机以固定频率采集图像，事件相机大多是通过测量每个像素的亮度变化来输出异步信号（包括事件、位置和亮度变化的符号）。事件相机与传统相机相比有很多的优点：

没有帧率的概念，它不同于等时间间距采样的方式，其通过等亮度变化值采样的方式，可以捕捉更快的动作，对快速变化的亮度十分敏感，所以不受运动模糊的影响；

单个像素的电路设计比较复杂，无法获得单个像素的亮度值，并且其采用对数响应的方式，所以可以获得较高的动态测量范围和高时间分辨率；

减少数据冗余，极大减小了数据的传输带宽；

由于其众多的优点，事件相机被应用在物体跟踪、识别、手势控制、三维重建、光溜估计、SLAM等领域。

一）事件相机的原理

如上图，每个像素都有一个计算电路，左边的光电转换电路将光强转换为电压值，使用一个差分电路，计算像素亮度的变化（该变化说明，事件相机取决于亮度的变化，与亮度的绝对值无关），当亮度变化累积达到一定阈值（该阈值一般为相机的固有参数）后，就会触发信号。该相机采用特殊的编码方式，即Address Event Representation，进行二值图像的压缩，一般图像的编解码都会被供应商集成到硬件SDK中。

二）关于事件的理解

事件相机，重点在于事件的理解。所谓的事件有三个要素：1）时间戳、2）像素坐标、3）极性；即一个事件可以表达为“在什么时间，哪个像素点，发生了亮度的增加或者减小”。

当场景中由物体运动或光照改变造成大量像素变化时，就会产生一系列的事件，这些事件以事件流（Events stream）方式输出，事件流的数据量远远小于传统相机的数据，且没有最小实践单位。所以具有低延迟的特性。以下装置来说明事件相机：

上图可以抽象为如下，图中的polarity可以是1，也可以是-1，用来表示该像素是变亮还是变暗，将事件分为on和offer。下图右侧上方，是传统相机的输出，下方为事件相机的输出。当圆盘转动时，传统相机会定时拍摄完整的图像，下方事件相机仅会输出变化，即黑斑的运动。当圆盘不动时，传统相机依然会傻傻的拍摄图像，而事件相机则不会产生任何输出（传统相机很痴情，事件相机很渣）。

当转速很快时：

事件相机一个特点就是快，两个events之间平均时间差约为0.1us左右；虽然在事件相机中，输出的event只有高低电平之分，无法分辨intensity，但不同强度的变化所激发的event数量是不同的。如果有条件进行实验的话（推荐CeleX5，非广告，便宜有方便），当相机运动时，视野内会出现一条明暗边界，由于边界两边存在明暗对比，边界会激发一条同形状的event点群；同样的形状下，明暗对比越大的边界，在相同情况下激发的event数量越多，这样就可以得到较为粗糙的强度信息。如上图中低速运动和高速运动所激发的event数量有明显的不同。

三）事件相机的处理范式

事件相机的处理一般有两种方法，一是模型驱动型，从其他传感器获得模型，如半稠密图，然后通过处理一个个事件来更新系统状态；另一个是数据驱动，利用机器学习的方法来获取事件之间的关联性。

由于事件相机输出的是事件流，有三种常见的处理范式，分别为：

a）Event-by-Event：Event-by-Event方法会被用在很多任务中，如slam中的特征追踪、位姿追踪以及图像重建等。如前面提到event经常大量出现在明暗分界线明显的地方。在vSLAM的Visual Odometry（通过求相邻图像的差别来计算相机的姿态变换，然后求得相机的位姿）中，基于feature based approach使用的feature一般也都是在明暗分明的地方。所以在vSLAM中，采用事件相机可以帮助过滤一些无用的信息，减少计算量。

b）Groups of Events：由于每个事件携带的信息比较少，且容易收到噪声的影响，所以一般截取一段时间内的事件一起处理，这样可以为需要解决的问题产生足够的信噪比。这样可以将事件转换为传统相机的frame，然后运动传统的视觉方法进行解决。另外也可以直接利用event之间的关联性，来进行目标检测、光流估计、深度估计等。如利用事件的像素直方图、最近时间戳表面（SAE）、插值体素网络将event转换成CNN使用的张量数据，然后采用类似encoder-decoder的架构进行应用（Event-based Vision： A Survey）。

c）SNN：全称Spiking Neural Networks，是一种脉冲事件的神经网络。它将视觉空间中的一个小区域作为输入事件，不同于CNN的每一次迭代传播都被激活，只有当event的状态超过一定阈值时，才会激活，产生输出。关于SNN，则是另外一个全新的领域，这里不做介绍。

四）关于事件相机的思考

事件相机虽然有很多的特点，但大多还停留在实验室阶段，适合占坑：

事件相机具有很高的频率（可以达到1000Hz以上），但无论在无人机还是自动驾驶领域，都不需要太高的频率（200Hz足以）。而目前传统相机也有达到200Hz以上，如iphoneX的摄像头频率可达240Hz。

事件相机可以在检测、目标重建方向发挥更大的作用，但在视频理解、语义分割领域还存在很大的缺陷。另外随着深度学习的发展，利用视频连续帧之间关系，也能够达到类似event的特点，如深度估计或光流估计。

事件相机适应性较强，在低光照或者高动态环境下信号稳定，可以与传统的相机相结合，即将event sensor集成在普通相机中（如 Dynamic and Active-pixel Vision Sensor，集成了event sensor、普通相机、IMU等），多方优势互补，既能在低光照或者高动态下获得稳定的信号，又能够进行视频理解、语义分割等功能。这种相机可以用在无人机或者无人驾驶领域。

审核编辑：李倩

打开APP阅读更多精彩内容