佐思周彦武老师的事件相机,引发了对帧事件的思考。基于该思考,对事件相机做一个整理,具体算法不去解释。主要参考《Event-based Vision: A Survey》
事件相机最初是神经形态学工程的一个产物,主要是利用VLSI(Very Large Scale Integration)去模拟、实现人与其他动物大脑中的某些神经元构造,如人眼只关注相对运动的物体,而不去关心相对静止的物体,这里的相对运动使用脉冲编码方式来实现(即事件相机)。
事件相机与传统相机存在很大的差别,相比于传统相机以固定频率采集图像,事件相机大多是通过测量每个像素的亮度变化来输出异步信号(包括事件、位置和亮度变化的符号)。事件相机与传统相机相比有很多的优点:
没有帧率的概念,它不同于等时间间距采样的方式,其通过等亮度变化值采样的方式,可以捕捉更快的动作,对快速变化的亮度十分敏感,所以不受运动模糊的影响;
单个像素的电路设计比较复杂,无法获得单个像素的亮度值,并且其采用对数响应的方式,所以可以获得较高的动态测量范围和高时间分辨率;
减少数据冗余,极大减小了数据的传输带宽;
由于其众多的优点,事件相机被应用在物体跟踪、识别、手势控制、三维重建、光溜估计、SLAM等领域。
一)事件相机的原理
如上图,每个像素都有一个计算电路,左边的光电转换电路将光强转换为电压值,使用一个差分电路,计算像素亮度的变化(该变化说明,事件相机取决于亮度的变化,与亮度的绝对值无关),当亮度变化累积达到一定阈值(该阈值一般为相机的固有参数)后,就会触发信号。该相机采用特殊的编码方式,即Address Event Representation,进行二值图像的压缩,一般图像的编解码都会被供应商集成到硬件SDK中。
二)关于事件的理解
事件相机,重点在于事件的理解。所谓的事件有三个要素:1)时间戳、2)像素坐标、3)极性;即一个事件可以表达为“在什么时间,哪个像素点,发生了亮度的增加或者减小”。
当场景中由物体运动或光照改变造成大量像素变化时,就会产生一系列的事件,这些事件以事件流(Events stream)方式输出,事件流的数据量远远小于传统相机的数据,且没有最小实践单位。所以具有低延迟的特性。以下装置来说明事件相机:
上图可以抽象为如下,图中的polarity可以是1,也可以是-1,用来表示该像素是变亮还是变暗,将事件分为on和offer。下图右侧上方,是传统相机的输出,下方为事件相机的输出。当圆盘转动时,传统相机会定时拍摄完整的图像,下方事件相机仅会输出变化,即黑斑的运动。当圆盘不动时,传统相机依然会傻傻的拍摄图像,而事件相机则不会产生任何输出(传统相机很痴情,事件相机很渣)。
当转速很快时:
事件相机一个特点就是快,两个events之间平均时间差约为0.1us左右;虽然在事件相机中,输出的event只有高低电平之分,无法分辨intensity,但不同强度的变化所激发的event数量是不同的。如果有条件进行实验的话(推荐CeleX5,非广告,便宜有方便),当相机运动时,视野内会出现一条明暗边界,由于边界两边存在明暗对比,边界会激发一条同形状的event点群;同样的形状下,明暗对比越大的边界,在相同情况下激发的event数量越多,这样就可以得到较为粗糙的强度信息。如上图中低速运动和高速运动所激发的event数量有明显的不同。
三)事件相机的处理范式
事件相机的处理一般有两种方法,一是模型驱动型,从其他传感器获得模型,如半稠密图,然后通过处理一个个事件来更新系统状态;另一个是数据驱动,利用机器学习的方法来获取事件之间的关联性。
由于事件相机输出的是事件流,有三种常见的处理范式,分别为:
a)Event-by-Event:Event-by-Event方法会被用在很多任务中,如slam中的特征追踪、位姿追踪以及图像重建等。如前面提到event经常大量出现在明暗分界线明显的地方。在vSLAM的Visual Odometry(通过求相邻图像的差别来计算相机的姿态变换,然后求得相机的位姿)中,基于feature based approach使用的feature一般也都是在明暗分明的地方。所以在vSLAM中,采用事件相机可以帮助过滤一些无用的信息,减少计算量。
b)Groups of Events:由于每个事件携带的信息比较少,且容易收到噪声的影响,所以一般截取一段时间内的事件一起处理,这样可以为需要解决的问题产生足够的信噪比。这样可以将事件转换为传统相机的frame,然后运动传统的视觉方法进行解决。另外也可以直接利用event之间的关联性,来进行目标检测、光流估计、深度估计等。如利用事件的像素直方图、最近时间戳表面(SAE)、插值体素网络将event转换成CNN使用的张量数据,然后采用类似encoder-decoder的架构进行应用(Event-based Vision: A Survey)。
c)SNN:全称Spiking Neural Networks,是一种脉冲事件的神经网络。它将视觉空间中的一个小区域作为输入事件,不同于CNN的每一次迭代传播都被激活,只有当event的状态超过一定阈值时,才会激活,产生输出。关于SNN,则是另外一个全新的领域,这里不做介绍。
四)关于事件相机的思考
事件相机虽然有很多的特点,但大多还停留在实验室阶段,适合占坑:
事件相机具有很高的频率(可以达到1000Hz以上),但无论在无人机还是自动驾驶领域,都不需要太高的频率(200Hz足以)。而目前传统相机也有达到200Hz以上,如iphoneX的摄像头频率可达240Hz。
事件相机可以在检测、目标重建方向发挥更大的作用,但在视频理解、语义分割领域还存在很大的缺陷。另外随着深度学习的发展,利用视频连续帧之间关系,也能够达到类似event的特点,如深度估计或光流估计。
事件相机适应性较强,在低光照或者高动态环境下信号稳定,可以与传统的相机相结合,即将event sensor集成在普通相机中(如 Dynamic and Active-pixel Vision Sensor,集成了event sensor、普通相机、IMU等),多方优势互补,既能在低光照或者高动态下获得稳定的信号,又能够进行视频理解、语义分割等功能。这种相机可以用在无人机或者无人驾驶领域。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !