手势识别在车内交互领域能否焕发新生？

电子工程师 2018-04-24 5871

电子说

1.3w人已加入

描述

2017年9月7日，中德合璧的拜腾汽车横空出世，致力于做国内版“特斯拉”的这家公司，除了在南京设有生产基地外，整个产品平台、产品设计、产品技术和配件等都在慕尼黑。

发布会上，拜腾推出了将于2019年面世的首款产品-纯电动中型SUV车型，这辆车最大的亮点是——配有一款尺寸惊人的液晶屏，具体尺寸是长125厘米、高25厘米。

这块屏幕在2018CES上大出风头，但隐藏在其背后的，还有另外一项功能：动态手势操控。

什么是动态手势操控？这还得从手势本身说起。

手势是人手或者手和手臂结合产生的多种动作，通常分为静态手势和动态手势。简单来说，静态手势只需要判断某个时间点上手势的外形特征即可，而动态手势则需采集一段时间内持续的动作，进行分析，增加了时间信息和动作特征。因此动态手势识别的难度要大于静态手势。

手势识别通常是出现在VR/AR领域，原本多用于家庭娱乐、智能穿戴领域，但由于价格高昂,此项技术一直没有大规模应用。而原本在此领域扮演重要角色的手势识别，也没能大展身手。那么作为一个新的应用场景，手势识别在车内交互领域能否焕发新生？

《高工智能汽车》采访了凌感科技（Usens）美国产品和运营副总裁王亚明，来听听他怎么说。

王亚明毕业于麻省理工学院，有20年的软件和嵌入式系统经验。此前曾担任美国微软、Intel风河公司、联发科的高层，担任产品总监和企业高级管理，现任凌感科技美国公司总经理。

手势识别的二三事儿

手势识别的实现方式，经历了二维到三维的转变。二维手型识别，也称静态二维手势识别，识别的是手势中最简单的一类。只能识别出几个静态的手势动作，比如握拳或者五指张开。这种手势识别本身是通过视觉分析算法，得到预设图像和拍摄图像的差异，然后理解手势的含义。

更确切的来讲，是一种手形识别，而非手势，因为手势是三维动态的。二维手势识别拓展性差、控制感弱，因此通常只用来实现一些简单的功能。

另外一种二维手势识别，通过更先进的计算机视觉算法，具有了追踪手势运动的能力，体验上从纯粹的状态控制，变成了比较丰富的平面控制。

为了实现更丰富场景的应用，手势识别引入了三维的方式。三维的手势识别主要是增加了Z轴的信息，即目标的距离。二维的图像在得到距离值后，便可以构建出立体的模型，通过追踪不同时刻目标物体的三维立体形态变化，识别、认识不同的形态，也就可以到更多与之相匹配的的标准含义。这就直接丰富了手势识别的数量、类型。

三维手势识别的实现方式，通常有三种，结构光(Structure Light)、光飞时间(Time of Flight)、多角成像(Multi-camera)。结构光是通过激光投射器投射激光束，经过光栅打到物体上产生折射的位移，然后用摄像头来采集图样，通过图样的位移变化，算出物体的位置、深度信息。这种方式使用的最佳范围是1米到4米。

光飞时间的方式是用CMOS传感器接收发光原件发射到物体上的反射光，然后通过光子的飞行时间计算距离，这种方式简单，不需要计算机视觉方面的能力。

还有一种就是多角成像的原理，使用两个或者两个以上的摄像头同时摄取图像，模拟人类视觉，得到目标物体的距离信息，类似于双目测距。这种技术依赖于计算机视觉算法来匹配两张图片里的相同目标，相对前两种技术而言，性价比较高。

结缘拜腾

凌感科技成立于2013年，是一家为AR/VR提供三维人机交互解决方案的高科技公司，目前已经在硅谷、北京、杭州、深圳等地设立研发及运营中心。其核心技术通过识别手部22个关键点，26个自由度，辨别手部姿态，实现全手势识别。

引以为傲的Inside-out追踪技术，检测人头部的旋转及运动位移，实现6自由度位置跟踪，真实还原人在现实世界中的体验效果，是VR沉浸感不可或缺的重要指标之一。

凌感科技在传统的消费者领域，手势识别的能力较强，但由于诸多原因，VR/AR并没有如人们想象的一样快速的成长起来，行业进入了较长的蛰伏期。

汽车的车内交互方式，通常有语音、手势、触控、物理摁键等方式，随着汽车的智能化来临，前两种方式逐渐有取代传统交互方式的趋势。

其中，车内手势交互属于新事物，在存量车中较为少见，大多出现在一些新的概念车中。相比于传统的AR/VR领域，车内手势识别目前主要停留在简单动作识别层面，要求可靠稳定、快速响应。

凌感科技的车内交互之路，源于一次偶然。拜腾汽车在推出新款车型时，准备在车上加入手势识别的功能。

拜腾汽车采用了50英寸共享全面屏，对这款屏幕的操作方式，公司希望可以实现手势动态操控。即驾驶员可通过手势，完成原有触控、摁键要完成的功能。

对于原来做车内手势识别的企业而言，这种需求完成难度大，对手势识别的精准度、稳定性以及响应速度都提出了更高的要求，同时在功能的丰富性方面也不可同日而语。

但对于做AR/VR手势识别出身的凌感科技而言，车载手势识别从功能丰富性上是做了减法，需要适应的是车载要求的一些规范。

由于凌感科技主要做的是软件算法层面的工作，且手势识别的方式有TOF、多角成像等方式，硬件层面只需要找相应符合要求的摄像头生产商即可。因此，满足汽车要求的产品方案，并不难产。

彼时业内符合其要求的，并没有几家，凌感科技接受了工作邀请，并且完成了其车载手势识别的第一次尝试。应用在拜腾汽车上的手势识别，有“开始”、“拖曳”、“指向”、“菜单”、“OK”五个手势，驾驶员只需要伸出右手，完成相应动作即可进行操控。

跟拜腾的合作比较顺利，也让公司意识到，除了传统领域，正在兴起的智能汽车交互，也将会是另外一个市场。

TOF景深、单目IR

凌感科技目前提供的针对车载手势交互的产品中，支持2种模组。其手势识别可支持的使用范围包括，主副驾驶、后排乘客交互的多种场景。

手势识别

其中在主驾驶位上的交互，包含中控屏、HUD的交互，副驾驶位和中控屏的交互，以及后排乘客和乘客屏的交互。

交互的方式主要有：

• 命令式手势(Gesture)：接听电话，调节音量，选取歌曲等

• 2D动态交互：操作2D图形界面，娱乐，社交，工作

• 3D动态交互：操作图形界面，娱乐，社交

凌感科技美国产品和运营副总裁王亚明表示，就目前而言，车内手势交互限于硬件条件（液晶大屏尚未普及），只完成少数简单几项的功能，并不丰富。

但手势识别本质上可以大大提升车内操控的体验，并不需要驾驶员分心，去观察传统触控、摁键完成操控的位置以及功能，操作人员仅仅需要记住相应功能的手势，即可完成操控。

而随着车内大屏的更新换代，越来越多的功能需要触控去完成，对于驾驶的安全有一定的影响，如果能用手势代替原有的操控，将会大大提升驾乘体验，

同时，相比于车内的另外一种交互方式——语音交互，手势识别也有其它的一些优势。语音交互是通过机器识别人类语言，完成功能响应。

一方面，语音识别由于人类语言的多样性，识别算法的有效性，准确性，很难达到通识天下语言，无往而不利。

另外一方面，人类的一些操控行为，并不一定能全部用语言描述。比如对持续性命令的执行（调节音量，调节音视频播放速度、进度等），较难量化的命令，语音识别就存在一定的局限性。

这类似于鼠标之于PC，其重要性很难被取代。

因此，手势识别在未来的车内交互领域，重要性一定会逐步体现。国际上一些传统的汽车OEM厂商，已经在其高端车上搭载了一些简单的手势识别功能，其它车企也在观望、试探阶段。

王亚明相信，随着汽车智能化的发展，手势识别一定会广泛进入汽车市场。

车内手势识别的萌芽期

当然，手势识别的上车之路，还需要一定的过程。比如，最常见的就是手势识别方案的成本、可靠性，准确性，体验是否能达到厂商的要求。

公司目前针对汽车手势识别，有两种方案，一种是摄像头放置在中控位，一种是在车顶位。

中控位的方式ToF景深模组和单目IR模组都适合。优势是能获得比较清晰的手区域图像，遮挡小，适合提取全手骨骼。不同车型的设置不一样，安装的位置和角度需要根据实际车型调整，算法也需要相应进行一定定制。

车顶位的方式适用深度摄像头（比如BMW采用了这种方式），优势是能够很好的控制水平方向距离，适合手指类的动态操作、点击等。劣势是需要动作标准，否则随意地动作遮挡会多。

王亚明表示，无论哪种方式，都需要同车企深度合作，在汽车设计早期就进入共同的研发阶段。而这，不仅需要公司的实力过硬，同时产品的功能也能够丰富，多样。

由于手势识别需要深度学习以及视觉的实时处理，对于硬件的算力也有一定的要求。通常的做法是分享汽车ECU算力或者配置单独处理器。前者容易适配，改装容易、价格便宜，主机厂商也乐意，但需要手势识别部分的算力不占用太多资源。后者成本高昂，主机厂商接受度较低。

手势识别初期在少量欧美高端车上的应用，给全球其它车企起到了一定的示范作用。目前国内的一些车企也在筹划手势识别进车的事宜，手势识别进入汽车的速度可能会超出外界想象。

因此公司未来也会将更多的注意力以及重心放在汽车手势识别领域。同时，由于国内是全球最大的汽车消费、生产市场，公司的重心也转移到了国内。目前凌感科技全球共有60余人的团队，其中2/3在中国，王亚明表示，其非常看好未来手势识别在车内的应用。

打开APP阅读更多精彩内容