安防智能化落地走向三大方向 3D视觉赋能安防新机遇

lumingluming 2020-04-15 1439

安全设备/系统

160人已加入

描述

未来安防智能化落地的三大方向：视频结构化、生物识别技术、物体识别技术。

视频结构化对数据进行追踪和关联的分析，从而做到事前预警；生物识别技术中的人脸、指纹、虹膜、声纹识别将得到大规模应用；物体识别技术减轻各种成本，提升效率。

针对未来安防智能化落地方向，奥比中光高级战略BD总监彭勋禄做客雷锋网公开课，阐述了奥比中光的思考，并详述了奥比中光关于3D视觉在智能安防领域应用落地的实践与探索。

彭勋禄提到，安防产业每一阶段的突破，都是由上游技术的革新引领，“看得到、看得远、看得清、看得懂”四大要素也成为推动安防行业进步的主要驱动力。其中，感知作为AI三个阶段之一，是实现智能化认知和决策的必经阶段。

未来安防智能化，要实现“看得懂”这一目标，不仅仅需要依靠AI算法和AI芯片，还需着力提升图像视频类感知的深度和纬度。同时，AI技术对视频成像的高要求成为安防智能化的痛点之一。

而3D将在主动光技术、空间三维数据、背景分离等方面带来革新，其独特的技术优势或许能赋予安防新机遇。

以下为彭勋禄分享内容节选，进行了不改变原意的编辑。

安防行业发展趋势

安防行业发展经过了几个重要阶段。

1979到1983年，安防行业形成以模拟摄像机+视频矩阵+磁带录像机为产品矩阵的模拟阶段；编解码技术的出现实现了从模拟阶段到数字阶段的转化，而数字化是网络化和智能化的前提；1997年网络摄像机的出现打破了传统安防地域的边界，安防行业通过网络全面升级、传感器芯片性能的提升和网络基础设施的高速发展而步入高清/超清时代； 2012年以后，国内互联网公司涌入安防行业，人工智能技术进入快速落地阶段，至此，安防行业进入智能化时代。

由此可见，安防产业每一个阶段的突破，都是由上游技术带来的革新引领；另外“看得到、看得远、看得清、看得懂”这四大要素，成为推动安防行业进步的主要驱动力。

安防行业宏观环境

智能安防的发展环境非常有利。

首先国家政策大力支持，十三五规划、十九大报告等政策均在不断强调数字城市、智慧城市、智慧安防监控系统的建设。

从市场潜力看，目前一二线城市的安防基础设施布局已经日趋完善，未来会以更新升级为主。主力的安防市场会逐渐向二三四线城市下沉。

从技术看，AI技术从2012年进入安防行业，经过多年的发展，已经进入实战化阶段，人脸识别等AI技术在公安抓逃、社区治理等场景中发挥了巨大作用。

从行业研发投入上，国内安防厂商对AI技术投入逐渐加大，尤其是安防赛道中的头部企业，在AI技术与产品的研发投入占比极高。

另外，新晋的CV独角兽与互联网巨头企业纷纷进入到安防主赛道，加剧行业竞争。但安防不同于互联网行业，它涉及诸多层面，包括硬件、软件、系统集成，以及工程与运营，还有渠道建设，这些都需要时间积累与沉淀。

所以我认为，CV公司和互联网公司虽然能够利用各自优势触达行业、进入到赛道，但他们同样也面临传统安防巨头的挤压与竞争。

今年爆发的新冠疫情，对整个城市的安防及应急指挥系统提出极大的挑战，同时也是前所未有的发展机遇。

从安防行业业务需求看，会出现从事后查证向事前预警前移的需求变化。

我认为安防智能化的一个重要出发点，就是从事后查证向事前预警前移。传统安防监而不控，更多是强调安防系统的覆盖面，监控不能有盲点，不能有死角，它只解决“看得到”和”看得清”的问题；而到了安防2.0时代，安防系统还需要”看得懂”，实现这一目标，不能仅仅依靠AI算法和AI芯片，还需要着力提升图像视频类感知数据的深度和维度。

另外，AI技术融入安防全产业链，上中下游均出现明显的技术革新趋势。

传统安防产业，上游的图像传感器供应商，包括芯片和其他电子元器件供应商，负责提供技术给中游的硬件供应商、软件供应商以及系统集成商，下游以运营服务商为主，为终端客户提供服务。

AI技术融入安防行业中有一个非常有趣的现象： CV公司开始做芯片，原来传统上游芯片公司都在做AI算法。

因为通用型的芯片无法满足垂直场景下的市场需求，所以AI算法必须和芯片结合。这并非简单的整合，要考虑诸多因素，包括芯片的算力、图像处理、功耗、成本等。

所以，从上、下游两个层面来看，下游会提出更多智能化需求，包括场景内的语音识别、图像识别、文本处理等，上游传感器供应商正在下沉，实现技术创新、产品创新抑或产业创新。上中下游均呈现明显的技术革新趋势。

在AI安防产业图谱中，增加了智能应用服务的层，主要是以商汤、旷视、云从、依图为首的AI算法公司。这种AI公司的入局也给整个安防行业带来了变化。

其次，原本华为处于整个安防产业的下游，更多地是提供一些ICT服务，现在其通讯业务具备云端的能力，海思芯片在安防行业的市场占有率非常高。像华为一样的巨头进入，对整个安防行业的格局来会产生深远影响。

智能安防三大落地方向

未来智能安防落地方向在哪里？我认为在三个层面。

视频结构化。视频结构化的概念已出现多时，是指利用计算机视觉和视频监控分析方法对摄像机拍录的图像序列进行自动分析，包括目标检测、目标分割提取、目标识别、目标跟踪等。主要作用是为未来人工智能进行数据追踪和关联分析提供事前预警。

生物识别技术。生物识别技术是指利用人体生理特性和行为特征来进行个人身份验证的技术。现在的人脸、指纹、虹膜、声纹识别都属于生物识别技术，未来将会在安防行业得到大规模推广和广泛应用。

物体识别技术。物体识别的典型案例就是车牌识别，如今车牌识别已成为许多智能停车场的标配。使用车牌识别技术，采集车辆图像，能够减轻停车场管理运营的人力成本，提高通行效率。

智能安防市场规模

智能安防的市场规模如何？虽然这些数据的统计时间较早，但是也有一定的参考价值。2017年，中国安防市场的资产规模达到6220亿，2018年，智能安防的资产规模接近300亿。预计2020年以后，智能安防将创造千亿级的市场，所以智能安防市场不容小觑。

智能安防的痛点

智能安防是热门话题，但具体落地的情况如何？中国一年就有超过5000万个摄像头的市场需求，但实际只有50万个智能摄像头在应用，比例不到1%。为什么？

第一是成本。前端部分、存储和视频分析是智能安防高成本的主要因素。集成施工、机房改造等系统建设的时间和人力成本，也提高了智能安防的落地成本。

第二是数据，安防领域的数据比较分散，存在许多数据孤岛。尽管我们一直追求建设智慧城市，倡导数据共享，但这些数据分布在不同的体系里，包括公安、交通、城管等，很难实现共通共享。如果没有数据，人工智能也无法进行数据分析和支撑。

第三是人工智能应用的深度不足，现在的人工智能技术应用于小范围或者单目标场景。像安防这种大范围的监控，还有人、车、物的关联分析需要专业能力和专业技术的积累。

最后一个是人工智能识别技术对视频成像的质量有较高要求。为什么会有高要求呢？这就是我后面要展开的，3D视觉与智能安防到底是怎样的关系？

3D 视觉赋能安防新机遇

人工智能与3D视觉

AI分为三个阶段，感知、认知和决策。感知就是AI通过不同的传感器接收物理世界的信息；认知就是AI通过算法判断、理解信息；决策就是AI的大脑，做综合的分析，并执行相应的动作。

感知也分很多种，比如视觉、听觉、嗅觉、触觉等，这些都是通过不同传感器去实现的。感知技术里占比最大的是视觉，视觉在整个感知里占比70%以上。传统意义上的视觉是以2D为主，现在2D的清晰度也越来越高，4K、8K都已出现，但依然停留在二维、单维的层面，只能解决看得清的问题，缺少了物理世界中的3D图像，即深度信息。

深度信息到底是什么？举几个例子，第1张图看鸽子的大小，从这个视角上看，鸽子比远方的行人要大；第2张图里一个人从窗口探出一只手抓住汽车，感觉汽车变成人手中的玩具；第3张图中杯子上面的蚂蚁好像和远处飞过的直升飞机一般大。

在二维图像里，因为不同的拍摄角度，近大、远小并不是现中的真相。

3D与2D图像的区别

我们现在看到的所有图像、视频都是通过2D摄像头平面成像，2D无法识别物理世界中的三维信息，比如尺寸、体积、距离等几何数据。3D摄像头是立体成像，能够识别视野内空间上每个点位的三维坐标信息，把这些坐标信息给到计算机和芯片，通过三维成像算法，能完整复原出整个三维图像。

三种3D视觉成像技术

3D 传感技术主要分为结构光、ToF和双目视觉三种，不同的技术路线决定了精度曲线，进而决定应用场景。

传统的普通双目门禁就是双目立体视觉代表，它主要通过三角测距计算出深度信息。但它受环境光影响大，同时需要大量特征识别、立体匹配的算法，匹配和计算过程复杂，难以生成实时的、稳定的深度信息。

现在主流的3D成像技术是结构光和ToF，这两种技术都是主动光技术。结构光的特点是近距离（1-2米）精度非常高，可以达到毫米级，而且它的分辨率高，成本相对比较低，适合集成。ToF的特点是距离长，能达到5-10米，苹果刚刚出来的一款iPad就搭载了ToF的激光雷达传感器。这种传感器可以实现未来VR和AR的一些功能，但是它点云密度低、扫描延时大、深度图分辨率低，精度比结构光要差，深度矫正困难。所以结构光和ToF各有优缺点。

现在很多手机已经开始应用3D摄像头，主要的关键点有两个：前置还是以结构化为主；后置会以ToF的相机为主。

2D与3D在安防产品的应用中有哪些区别？

第一个区别是光线，2D摄像头在光线较暗的场景下成像质量非常差，尤其是需要附加类似智能分析的功能时，分析效率存在较大问题，会有很多错检、漏检，虽然会有红外光进行补充，但实际上在红外上做智能分析会缺失很多信息。

第二区别是人体特征检测，2D只有XY这样的平面信息，缺乏深度数据，无法对目标进行精准定位与持续跟踪。

第三个，目标重叠的时候，2D摄像头很难把分析目标从背景中分离出来。

而且2D无法做活体检测，人脸识别中，如果没有3D的活体检测，很容易受到照片与视频的伪装攻击。

另外，现在安防家用摄像头很普遍，但是隐私泄露隐患给公众造成了心理压力和安全问题。

3D能够带来什么样的改变？

首先，3D是主动光技术，可以在完全无光照环境下正常的工作。在强光、逆光环境下也能达到较好成像效果。

第二，可以获取空间中的三维数据，包括尺寸测量，空间中人、车的位置，身高、体重、距离、速度等，都可以精准的计算出来。

另外还可以进行背景分离，实现实时的、动态的人体人像抠图，在进行智能分析时去除背景干扰，提高算法分析准确率。还可以进行活体检测与识别，在家庭安防、车内安防等私密场景中，我们只需要一些深度信息，即可以实现这种安全监控与行为分析。

安防系统中的生物识别技术

生物识别技术正成为世界范围内使用最为广泛的技术之一，市场上主流的生物识别技术主要有人脸识别、指纹识别、虹膜识别、声纹识别。它们有哪些优缺点？

我认为指纹识别的应用性比较好，成本较低，技术较成熟，但是用户体验差，比如手指有破损或者有水有汗的时候，经常识别不出来。另外它的防攻击能力弱，会带来很多安全隐患。

虹膜识别的安全性是最高的，但是它的易用性很差，而且成本较高。指静脉也是一样，安全性高，成本高，适用性很强。

人脸识别技术比较成熟，成本也适中，可以实现无感识别，在人机交互方面比较自然，唯一的缺点还是安全性低。

人脸识别的安全性怎么会低呢？试举以下几个案例：去年嘉兴一群小学生利用父母的高清照片成功在快递柜上刷脸取件；智能门锁很多也应用了人脸识别，但媒体做了一个小测试，拿出打印好的业主照片，对准门口的摄像头，轻易地就把门打开了；有一次我住酒店时看到前台有自助酒店服务终端，我就把我的身份证和照片发给我的同事，他用我的身份证和照片，轻而易举地完成了核验，拿到了房卡。

其实基于2D的人脸识别有很多漏洞，虽然现在很多厂商宣称其使用的双目、AI+RGB能做到活体检测，但是这种技术被攻破几率很大。

基于3D图像的人脸识别

奥比在做3D活体检测实验中，工作人员用很多的假体，包括头套、面具、照片攻击3D人脸识别系统，系统能够非常准确地判断。在整个活体检测实验中，我们采用2000多种不同材质的假体做大量实验，做相应的算法去规避这些假体对人脸识别系统的攻击。

去年我们取得了银行卡检测中心的“活体检测”认证报告。奥比中光涉猎新零售业务，需要保证刷脸支付的安全，支付宝刷脸支付终端就使用了奥比中光的3D摄像头。

我们在智能门禁领域做了一些尝试，有个合作伙伴戴头套测试我们做的一款闸机，系统植入了3D信息，跟2D算法融合，在速度和效率上有成倍提升，所以系统很快识别出来，这款闸机目前主要供应给银行、政府部门等重点安防场所。

我认为未来高铁站的刷脸进站、海关的刷脸通关以及更多的场景都会逐步替换成有3D视觉的设备。

除了人脸识别以外，安防有一个很重要的场景叫行为分析。传统的2D行为分析更多的是靠数据训练深度学习和识别能力。3D视觉对视频里的异常行为能够实时地跟踪与判别，例如突然倒地、突然剧烈运动、人数异常、区域入侵等事件。

我们在很多场景中已经开始使用3D视觉，智慧养老场景中，为家里的老年人做异常姿态检测；智慧金融场景中，检测异常情况，例如有人倒地、打架斗殴或者有人徘徊等事件；在智慧监舍场景，由于监舍对犯人的行为监控要求非常高，用3D摄像头可以识别他们的一些高危险行为。

我们也有客流分析系统方面的案例，主要在公交车领域，统计单位时间内上下客流的情况，实时数据会传送到车辆指挥调度系统，帮助调度中心进行车辆的指挥和调度，在高峰期可以调整运营、减轻压力。

刑侦领域需要进行犯罪现场的实景还原，原来只能拍照、录像或者现场人工测量，现在3D视觉系统可以把整个犯罪现场完整地进行扫描和复刻。因为犯罪现场不能一直保留，查案时可以在这种三维系统里进行重新排查。另外，庭审时也可以复原整个案件、插入语音讲解、播放图像视频等，能够非常直观地呈现案件发展过程。

打开APP阅读更多精彩内容