5G时代的深度神经网络推动人机交互技术突破

123xiaowang蓝色_ 2020-07-24 1147

通信网络

635人已加入

描述

语言是人类之间沟通交流最基本的形式，科学家很早就对语音识别表现出很浓厚的兴趣，1952年贝尔实验室研发出可识别单个数字0-9的语音识别Andry系统，从20世纪60年代开始美国卡耐基梅隆大学开展了连续语音识别的研究并在80年代开发出首个“非特定人连续语音识别系统”，但受制于传统经典模型的局限性使语言识别的发展止步于此，直到2006年深度置信网络（DBN）解决模型训练容易陷入局部最优问题，2011年深度神经网络（DNN）模型在大词汇量连续语音识别上的应用取得成功带动语音识别产业应用的高潮。

当然这段时间中国也在进行语音识别的探索，1958年中国科学院声学所利用电子管电路识别10个元音，1973年中国科学院声学所开始研究计算机语音识别，1986年中国“863计划”首次将语音识别专门列为研究课题，之后诞生科大讯飞、百度、云知声、思必驰等企业。

DNN技术的应用虽然在大词汇量连续语音识别上有大的突破，但是无法对时间序列上的变化进行建模，简单的说就是一段话中的每个字都能识别但是整句话读起来不通顺词不达意，无法根据语境、前后文识别成完整的一句话，而循环神经网络（RNN）可以把前一时刻的输出作为后一时刻的输入从而生成完整的一句话。科大讯飞在此基础上提出了前馈型序列记忆网络（FSMN），通过结合FSMN和RNN算法的优点提高语言识别准确性的同时缩短模型训练的周期、降低识别的响应时间。

车载的人脸识别可能没有语音识别那么普及，但人类几乎同时对语音和人脸识别进行研究，早在20 世纪50年代就已经开始对人脸识别进行理论性研究。20世纪60年代主要利用人脸的几何结构，通过分析人脸器官特征点及其之间的拓扑关系进行辨识。20世纪90年代引入“特征脸”方法对人脸进行识别。2013年微软亚洲研究院的研究者首度尝试了 10 万规模的大训练数据，2014年起深度学习的应用带动人脸识别准确率上大幅提升，人脸识别产业化发展进入快车道。

深度学习是指通过对物体进行逐层的特征分类筛选，第一层可能会寻找简单的边线，第二层可能会寻找可以形成长方形或圆形等简单形状的边线集合，第三层可能会识别眼睛和鼻子等特征，通过人脸检测、特征点识别、特征提取和特征比对等技术手段最终将这些特征结合在一起掌握“人脸”的概念。神经网络模型层数越多，人脸特征的分类越详细，可区分的特征越多，人脸识别的准确度越高，商汤科技Parrots平台驱动“设计深度学习大脑”有1207层网络，1000+次的层层筛选把关，识别的准确度最高可达99%。

对于这个万物互联的时代，科大讯飞的语言识别和商汤的人脸识别如何赋能威马智能汽车呢？目前市面上所有的智能汽车在你每次要通过语音控制汽车的某些功能（打开车窗、打开空调等）都需要先唤醒它“你好，某某”，但如果有一辆威马汽车在你出发前，解锁后靠近，在车外时就主动向你问好，这种自带主角光环的出场方式，总能吸引旁人目光。上车后根据你的身份主动调节座椅、后视镜、方向盘等位置，登录享受会员权益等，“一眼就懂”你的想法，疲劳时通过仪表的提示音进行警示，亦或用语音提醒车主是否需要“来点音乐”，还可以远程控制智能家居，是不是有一种越级的体验？

以上功能的实现都要先回答一下问题：这辆车怎么知道Who are you？这主要靠驾驶舱内的内置主驾摄像头，摄像头除了可以用于安全驾驶-驾驶员疲劳、分神的检测之外，还是人脸识别身份的入口，通过人脸检测、特征点识别、特征提取和特征比对等技术手段，最终识别出人脸的身份。

智能车内摄像头的加入为人-车在语音交互之外新增人脸交互端口，语音交互给人的感觉始终是他不知道你是谁，谁都可以指示它，你说什么它就做什么，它更像一个没有灵魂情感的机器人，而人脸交互最大的优势，它可以准确识别Who are you？ Where you come from？ What do you like？真正做到what can I do specifically for you！根据驾驶员的身份不同，匹配相应的功能设置，一个眼神秒懂你，实现专人专享的智能座舱体验。

除了以上说的语音识别、人脸识别各个独立功能之外，威马的智能交互AI小威深度融合整车所有传感器数据进行大数据分析，开发出如情绪识别、接管能力和前车起步提醒等功能。以前车起步提醒功能为例，红绿灯路口停车之后，驾驶员一般都会看看手机发个微信、打电话、换音乐等等，总之这个时候很少有人还会把注意力放到正前方，AI小威通过前置摄像头计算周边车辆位置、速度信息，再根据本车的多个传感器计算本车运行状态速度等信息，结合人脸识别判断驾驶员分心未注视前方时通过语音或仪表提醒驾驶员起步。这些都是基于整车现有硬件的前提下，发掘用户开车用车的“痛点”，深度融合整车传感器数据开发新的功能，后续的功能通过不断的OTA升级实现。

在车内智能交互之外，威马还打破空间的界限，对车联网和物联网（IoT，Internet of things）等资源进行整合，无缝连接车内第三空间和家，实现在车内通过语音远程控制家里空调、热水器、房间灯等的开启关闭，解决进门前提前开启空调、开热水器等和出门总是担心“忘记关各种电器”的难题。到家后还可以通过小爱音箱随时查看爱车状态、可续航里程、充电量等，在家就可以根据爱车电量提前规划行程安排。借助于IoT智能设备，加入物联网生态圈，目前已支持的智能家居产品达到8类30种9，000万个，后期还在不断拓展车联网所用的场景，开发出更多实用的功能。

对于人-车交互，威马并没有止步一般的“察言观色”的功能设计，还在深度发掘用户真正需求，通过面部表情、眼神、肢体动作、手势等细节了解用户当前的情感、态度和意图，追求的最终目标是在多模态交互体验上更具有人格化。围绕多模态交互场景下的声纹识别、手势识别、表情识别、视线跟踪，以及CarbinSensing感知技术也都在同步开展探索研究，借助于深度学习技术提高识别的准确度，不断推进相关技术的产业化发展，在不久的将来赋能威马智能汽车。

打开APP阅读更多精彩内容