为什么普通摄像头+深度学习方案更适合VR/AR

独爱72H 2019-10-23 3285

vr|ar|虚拟现实

167人已加入

描述

（文章来源：VR陀螺）

随着Oculus将于2020年初在Quest中加入手势识别功能这一消息发布，手势交互终于打破局面，开始真正走向消费端。为什么普通摄像头+深度学习方案更适合VR/AR？此次Oculus Quest手势识别使用了基于计算机视觉的手势识别的技术方案。（感谢凌感科技uSens费越博士对本文技术部分的支持）

VR陀螺从费越博士口中了解到，目前基于计算机视觉的手势方案实际上也分为两种：一种是用深度摄像头，一种是用一个或者多个普通摄像头实现。而其中深度摄像头的方案又分为两种，TOF（Time of Flight，光飞时间）和结构光。实际上结构光，或者TOF输出的东西基本一样，都是一张深度图。

相对于两种使用深度摄像头的方案，基于一个或多个普通摄像头实现的手势识别难度更高，但得益于技术发展，其在精度、成本综合性能上正在成为主流。业内的Leap Motion、凌感uSens就是使用这种方案，Oculus Quest也是使用原有的用于SLAM和手柄跟踪的四个灰度摄像头用深度学习算法来实现的手势识别。

凌感uSens自2015年就开始使用深度学习技术实现手势识别，并在2017年发布了和Oculus Quest类似的基于灰度摄像头的手势识别及SLAM方案。不久前凌感还研发发布了单目RGB相机上的三维手势骨骼识别，可识别手部全部22个关节点的26DOF（26自由度）信息，关节点包括3D位置信息和3D旋转信息。在单目RGB相机上实现三维手势骨骼识别相对于多个灰度相机的方案来说算法的难度更高。

近年来TOF方案在手机上应用越来越广泛，也是最容易实现深度信息的方案，但在VR、AR设备上却几乎没有。原因可以从以下几个方面来看：

AR、VR对相机要求非常高，首先必须做到延迟非常低。据称，普通相机延迟可以达到4ms以下，从相机获取图像到把图像传过来的延迟都控制在10ms以下。但TOF相机难以做到，一般TOF相机获取图像的过程延迟约为四五十毫秒。因为TOF相机的工作原理不是拍一张图像，而是要连续拍多张图像，再根据图像不同的激光的相位，来还原出深度信息。而拍多张的后果导致延时高，并且要求一定的计算，也需要耗时。同时，这种方案还会有一些运动模糊，如果手动作特别快，在多张图像中的位置不同，也会导致信息测算不精准。

对于AR、VR来说，它的要求比一般手机识别人脸的要求高非常多。手不管动得多快，都必须有反应，需要精确、低延迟，不然容易产生眩晕。

TOF的第二个问题在于视角。在VR中追踪范围越大，手、手柄能够运动的幅度就越大，灰度相机配上鱼眼镜头可以视角达到160度以上，多相机系统可以达到200度以上的覆盖范围。但一般性能比较好的TOF，视角约为60度，最大也只有90度左右。TOF在手机上可行，但对VR、AR应用来说，致命的就是延迟和视角。

打开APP阅读更多精彩内容