机器视觉之于人工智能等同于视觉之于人类

机器视觉 2019-06-18 6279

描述

机器视觉之于人工智能等同于视觉之于人类，本文系统介绍决定机器视觉的两大要素——视觉算法和芯片，重点介绍国内外视觉芯片市场及发展前景，包括重量级玩家及其产品。

机器能否比人眼看得更清楚？近年来，随着CV (Computer Vision) 芯片产品不断推出，这一疑惑正在慢慢变成现实。就如AlphaGo战胜“围棋天才”柯洁一样，在某些应用场景，机器视觉因其准确性、客观性、稳定性，比人类生理视觉更具优势。

在我们通常的印象中，一个视力正常的人可以迅速且毫不费力地感知世界，甚至可以详细生动得感知整个视觉场景；但其实这只是一个错觉，人类生理视觉有着天然的局限，只有投射到眼球中心视觉场景的中间部分，我们才能详细而色彩鲜明地看清楚。比起人眼来，CV其实具备了相当多的优势（详见表一），可以清楚的看到，CV的视力已经远不止5.0了！

视觉算法

表一：机器视觉相对人眼的优势

机器视觉的视力为何如此之强？关键在于芯片，核心是将一些特定图像算法用芯片方式实现，同时融入了深度学习和神经网络算法。

机器视觉原理——图像处理和算法机器视觉或称计算机视觉是用一个可以代替人眼的光学装置和传感器来对客观世界三维场景进行感知，即获取物体的数字图像，利用计算机或者芯片，结合专门应用软件来模拟人脑的判断准则而对所获取的数字图像进行测量和判断。该技术已广泛用于实际的测量、控制和检测中，随着芯片技术发展，在人工智能各个领域应用也逐步展开。

图一：机器视觉代替人眼抽象图

一个典型的工业机器视觉系统包括：光源、镜头、相机 (包括CCD相机和COMS相机)、图像处理单元 (或机器视觉芯片)、图像处理软件、***器、通讯、输入输出单元等。系统可再分为主端电脑、影像采集与影像处理器、影像摄影机、CCTV镜头、显微镜头、照明设备、Halogen光源、LED光源、高周波萤光灯源、闪光灯源、其他特殊光源、影像显示器、LCD、机构及控制系统、控制器、精密桌台、伺服运动机台。

可见，从应用技术划分，机器视觉是一门综合了模拟、数字电子、计算机、图像处理、传感器、机械工程、光源照明、光学成像等跨学科的前沿技术；从应用学科划分，机器视觉是一门涉及人工智能、神经生物学、心理物理学、计算机科学、图像处理、模式识别等多个领域的交叉学科。

机器视觉技术的发展，归功于计算机软件技术使现有大规模集成电子电路技术发展的成果达到了极大化的利用，尤其是多媒体和数字图像处理及分析理论方面的技术成熟，使得机器视觉技术不仅在理论，而且在应用上都得到了高速发展。

机器视觉之于人工智能的意义等同于视觉之于人类的意义，而决定着机器视觉的就是图像处理技术。不同的应用领域需要不同的图像处理算法来实现机器视觉。常用的机器视觉领域图像算法有运动目标检测算法、基于深度学习的人脸算法等。

下面介绍下机器视觉中的运动目标检测图像算法，该方法是运动物体识别和跟踪的基础。移动物体的检测依据视频图像中背景环境地不同可以分为静态背景检测和动态背景检测。由于篇幅有限，我们这里只介绍静态背景检测算法。常见的静态背景目标的检测算法包括帧间差分法、背景减除法、光流法等。这些背景不变算法的优缺点描述如下表二。

在上述检测算法中，帧间差分法和背景减除法更加适用于如视频监控、智能交通系统等图像背景静止的环境中。光流法则更加适用于背景不断变化的动态环境中。下面我们来介绍以上三种常用算法的基本原理。

视觉算法

表二各种机器视觉物体运动检测算法比较

帧间差分法的适应环境能力强、计算量小、且稳定性好，是目前应用广泛的一类运动检测方法。其原理是将相帧或者三帧序列图像像素点的对应灰度值进行相减，如果灰度差值大于阈值则说明此处物体发生了变化，它是运动的；如果像素的灰度差值小于给定阈值说明此处物体没有发生变化，认为它是静止的。将像素灰度值发生变化的部分标记出来，这些被标记的点就组成了运动目标区域。进一步对灰度图像进行二值化分析，提取目标运动信息，区分出前景和背景图像，进而分割出运动目标。

背景减除法其实是一种特别的帧间差分法，背景减除法根据将当前帧图像与背景模型做差来实现对运动目标的检测。这种方法首先获取背景模型，并将其保存起来，当对某一帧图像进行检测时，用实时获取的帧图像与背景模型做差分运算，得到要检测的运动目标。

光流法是当运动目标在监控场景中产生运动的时候，物体表面会形成位移矢量场，根据其变化可以得到运动目标。光流是指移动物体在其对应的灰度图像上的表面运动，在光流场中，运动目标的速度矢量形成的平面投影构成了目标的运动信息。运动目标在投影上形成的速度矢量是比较均匀，运动目标速度不同形成的速度矢量也不相同，通过光流的计算结果就可以区分出速度不同的运动目标。

图像处理算法一开始应用应该是采用服务器的软件算法来完成，随着互联网技术的不断成熟，会扩展到云端计算来完成，但是这样对于网络带宽要求非常大，对于云服务器的计量量要求也非常高。笔者估计，视频图像处理技术算法的大规模产业化应用，必然是需要专业的芯片来完成，该芯片就是机器视觉 (CV) 芯片。芯片方式一定是能够降低成本，同时提高运算能力。从近年的整个行业情况来看，计算机视觉作为人工智能领域最重要的方向之一，由于机器视觉芯片诞生和深度学习算法不断发展，近几年获得了巨大的发展，各项应用在不同的行业里开始落地生根。

机器视觉的应用历史

最早的机器视觉提出开始与上个视觉60年代，随后1973年，美国自然科学基金会制定了1973-1982 视觉系统和机器人的发展计划，并研究成功了一些实用的视觉系统，应用于机械手定位、集成电路生产、精密电子产品装配、饮料罐装的检验等场合；后来在PCB制作工艺中也采用机器视觉系统，用于印制电路板的质量监测等。除了在生产制造领域外，军事领域也广泛应用，如精确的制导系统等，无人机的自动导航等；还有CV也应用在生物实验等领域，用于监测生物各个生产规律，通过加速视频播放来呈现生物生长等过程；在汽车自动驾驶领域，CV芯片也有不断深入的应用。

现在

在当今这个时代，计算机视觉领域呈现出很多新的趋势，其中最为显著的一个，就是应用的爆炸性增长。除了手机、个人电脑和工业检测之外，计算机视觉技术在智能安防、机器人、自动驾驶、智慧医疗、无人机、增强现实（AR）等领域都出现了各种形态的应用方式。计算机视觉迎来了一个应用爆炸性增长的时代，目前的应用如下图所示，主要以运动控制为主。

视觉算法

图二：当前机器视觉多种应用方式

随着各个领域技术不断发展，许多科技巨头也开始了在图像识别和人工智能领域的布局，Facebook签下的人工智能专家Yann LeCun最重大的成就就是在图像识别领域，其提出的LeNet为代表的卷积神经网络，在应用到各种不同的图像识别任务时都取得了不错效果，被认为是通用图像识别系统的代表之一；Google 借助模拟神经网络“DistBelief”通过对数百万份YouTube 视频的学习自行掌握了猫的关键特征，这是机器在没有人帮助的情况下自己读懂了猫的概念。值得一提的是，负责这个项目的Andrew Ng后来转投百度领导百度（现已离职），其一个重要的研究方向就是人工智能和图像识别，这也能看出国内科技公司对图像识别技术以及人工智能技术的重视程度。

未来

机器视觉领域的应用将呈现了爆发式的增长态势。刚才已经提到在安防监控、高度的自动化驾驶、增强现实、医疗图像、机器人工业视觉、移动互联网等领域都有众多的计算机视觉应用产生。CV芯片的成熟量产将使得人类生活在一个无所隐藏的时代，每个带有CV芯片的摄像头就是视力远远高于5.0的眼睛，并且超强的分析判断能力；当然人工智能的有序应用，最终将造福人类。

下图是对2014年至2018年全球机器视觉系统及部件机器视觉市场规模预测，图中折线为年增长率，由图根据复合增长率可以计算出2014-2018年的复合增长率为8.39%。

视觉算法

图三：全球机器视觉市场规模预测

国内外CV芯片公司与特点

国内的机器视觉相关公司有一些，大部分都是属于视觉芯片产品应用型公司，而半导体芯片制造公司比较少。

视觉芯片产品应用型公司如杭州海康机器人技术有限公司，起步于全球安防排名首位——海康威视成立的机器视觉业务部，依托海康威视在视音频、成像采集与核心算法等领域技术积累，海康机器人主攻智能制造，业已开拓机器视觉、移动机器人以及行业级无人机等业务领域。其中，机器视觉产品覆盖全系列工业面阵、线阵、立体相机，镜头，视觉软件平台，视觉控制器及工业智能相机等。

广州云从信息科技有限公司 (简称云从科技) 是一家专注于计算机视觉与人工智能的高科技企业，核心技术源于四院院士、计算机视觉之父——Thomas S.Huang (黄煦涛) 教授。核心团队曾于2007年到2011年6次斩获智能识别世界冠军，得到上市公司佳都科技与香港杰翱资本的战略投资。公司主要技术团队来自中国科学院重庆分院，是中科院研发实力最雄厚的人脸识别团队，并作为中科院战略性先导科技专项的唯一人脸识别团队，代表参与了***喀什等地安防布控。

格灵深瞳是一家将计算机视觉和深度学习技术应用于商业领域的科技公司，自主研发的深瞳技术在人和车的检测、跟踪与识别方面居于世界领先水平。公司借助海量数据，让计算机像人一样看懂这个世界，实时获取自然世界正在发生的一切，打造自然世界的搜索引擎。华为海思在机器视觉这块也积极布局，但是目前还没有成熟量产CV芯片推出。

中星微电子

中星微电子是国内为数不多的一家机器视觉芯片设计公司，其芯片的主要功能在人脸识别领域的应用。2016年6月20日，中星率先推出中国首款嵌入式神经网络处理器（NPU）芯片中星微，这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片，并取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上，最高能达到98%的准确率，超过人眼的识别率。该芯片于2016年3月6日实现量产，目前出货量为十几万件。该NPU采用了“数据驱动”并行计算的架构，单颗NPU（28nm）能耗仅为400mW，极大地提升了计算能力与功耗的比例，可以广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。

视觉算法

图四：中星微NPU框架

NEXTCHIP

韩国NEXTCHIP公司1997年成立，2007年在韩国已经上市，是一个以图像处理技术为主的公司。公司的产品设计视频监控、DVR、SOC、自动驾驶系统中的核心芯片，均是以图形处理、传输为主的半导体芯片厂家。公司涉及机器视觉领域芯片是在自动驾驶系统的应有中，主打产品APACHE4是瞄准下一代的ADAS体系的SOC芯片。

APACHE4加入了专用检测引擎，支持行人检测、车辆检测、车道检测和移动物体检测四种监测类型。嵌入其中的CEVA-XM4图像和视觉平台可让APACHE4的客户使用高阶软件编程来开发差异化的ADAS应用，具体应有如下图，在车辆系统的前后左右都有图像采集系统，搭配一颗APACHE4，并将采集数据送入到图像分析系统ECU，并将分析结果送入汽车操控系统。

图五：APACHE4在汽车自动驾驶中应用

Movidius

Movidius是一家无晶圆半导体公司，2016年9月英特尔宣布将收购计算机视觉创业公司Movidius，这家公司也是谷歌Project Tango 3D传感器技术背后的功臣。Movidius的使命是“为机器赋予视觉能力”，同时也将与英特尔的RealSense技术配合。该公司主要产品为低功耗视觉处理器：Myriad 系列 VPU，而且已经与谷歌、联想和大疆等公司签订了协议。

DJI大疆宣布推出最新的无人机产品Phantom 4。这款飞行器采用计算机视觉来实现自主飞行，核心的机器视觉芯片就是采用了Movidius的Myriad 2芯片。早在2014年，Movidius推出的首颗芯片Myriad 1就应用到了谷歌的第一代Project Tango平板中。

2017年8月28日，INTEL宣布推出Movidius Myriad X视觉处理器（VPU），该处理器是一款低功耗SoC，主要用于基于视觉的设备的深度学习和AI算法加速，比如无人机、智能相机、VR/AR头盔。

图六：Myriad X视觉处理器

Myriad X的推出并不会取代Myriad 2。Movidius称，Myriad X能在同一功率范围内的深度神经网络DNN推理中，提供10倍于Myriad 2的性能。Myriad X拥有Movidius称之为神经计算引擎（Neural Compute Engine）的功能，这是一种集成在芯片上的DNN加速器。

Movidius称，有了它，Myriad X的DNN推理吞吐量能达到每秒超过一万亿次运算（TOPS）。除了神经计算引擎，SoC 16还具有可编程矢量处理器，可配置MIPI通道和Vision Accelerator。矢量处理器使您能够一起运行多个成像和视觉应用。

此外，MIPI通道确保您可以将多达8个HD-RGB摄像机直接连接到Myriad X.该芯片可以处理高达每秒7亿像素的图像信号。最后，Vision Accelerator可以让您执行光流量和立体声深度等任务，而无需额外的计算能力。与人类相媲美的视觉智能设备构成了计算的下一步, 随着低功耗的CV芯片的逐渐发展，真正的AI离我们越来越近了。

Ambarella

美国安霸（Ambarella）是高清视频业界的技术领导者，主要提供低功耗、高清视频压缩与图像处理的解决方案。2015年安霸收购意大利公司VisLab，计划借此进入计算机视觉芯片市场。

安霸收购VisLab后，包括“计算机视觉算法、传感器融合以及基于算法的感知、探测和决断”等在内的多项核心技术也将一并纳入安霸麾下，同时安霸的汽车轨迹记录芯片以及基于摄像头的系统级芯片解决方案也是吸引VisLab加入的重要原因。

安霸本身是图像处理芯片公司，同时一直在汽车行业也有出色的芯片应用，有了机器视觉芯片后，安霸在汽车自动驾驶领域将会起到更大作用。业界消息反馈，目前安霸的机器视觉芯片CV1将在今秋送样。安霸的CV1未来取决于算法和软件，最终是有没有可能投入到庞大的车队和达到LEVEL4的自动驾驶水平。

摩根士丹利证券分析师 Joseph Moore 指出，“电脑视觉（computer vision）”蕴藏极大商机，将创造出许多赢家，安霸在影像处理领域的深厚专业知识使其处于独特的地位。安霸首款电脑视觉芯片将自今年秋季起开始送样并进行必要的车用认证程序。如果一切进行顺利，安霸的电脑视觉芯片可望自明年起开始拉高产量。

Inuitive

Inuitive是一家先进的3D计算机视觉和图像处理器设计厂家，利用CEVA-XM4智慧视觉DSP的授权许可，运行复杂的即时深度感测、特征跟踪、目标识别、深度学习和其它以各种行动设备为目标的视觉相关之演算法。

CEVA图像和视觉DSP满足最复杂计算摄影和电脑视觉应用对极端处理的需求，比如视频分析、扩增实境和先进驾驶辅助系统(ADAS)。透过从CPU和GPU卸载下这些性能密集型的任务，这些高效的DSP可大幅降低整体系统的功耗，同时还可提供完整的灵活性。这些行动设备包括扩增实境和虚拟实境头戴耳机、无人机、消费机器人、360度相机和深度感测器等。

图七：Inuitive视觉处理器NU3000

目前该公司在机器视觉的芯片有NU3000和NU4000 两款。NU4000是Inuitive在其NU3000多核影像处理器成功的基础之上所推出的新款产品；NU3000以第三代的CEVA-MM3101图像和视觉DSP来提供立体视觉功能，现在是Google Project Tango生态系统中的一部分，开发人员能够利用它来开发需要即时深度产生、映射、定位、导航和其它复杂信号处理演算法的应用。

小结

从目前的数据看，机器视觉领域目前是一个巨大的市场，如下图预测，预计在2018年市场容量将达到50.43亿美元的规模。面对如此巨大的市场，并且核心的硬件芯片占了整套视觉系统大概35%的成本的情形下，半导体行业各个大公司都对此领域虎视眈眈。但是因其技术壁垒较高，需要有成熟的图像算法方面积累，半导体公司也不敢贸然进入。

中国国内大部分是在视觉产品中下游公司，设计生产专用机器视觉芯片公司凤毛麟角。从中国国内机器视觉专利申请数量看，在二十年前，几乎没有任何的专利创新，2011年，我国机器视觉专利申请数为267个；2012年，我国机器视觉专利申请数量为298个；2013年为101个，说明国内也在不断重视机器视觉这个领域，试图在产业的高端有所突破。

放眼全球，INTEL、安霸等半导体巨头在CV领域早有研究，并且目前有成熟可量产的CV芯片上市，在高端控制了整个机器视觉领域，同时，这些国际大公司也通过自己本身在行业的影响地位，不断推动CV的各个行业的具体应用，大力推动了整个CV行业的高速发展。

CV芯片未来发展趋势

从目前CV芯片的现状和机器视觉系统的应用来看，芯片领域是一个非常巨大的市场，是计算机视觉未来大规模应用的重要一环，笔者认为未来的CV芯片有下面三大发展趋势。

趋势一：CV芯片的集成度进一步提高。随着半导体加工工艺向6nm迈进，单颗CV的集成度将大大提升。更高效的大卷积解构与复用机制成熟，在超大神经网络中可以进一步减少总线上的数据通信，可以适当深度学习和神经网络IP更加容易集成；同时，各种图形处理算法IP直接固化在CV芯片中，降低了对GPU的计算能力依赖。未来的单颗CV芯片，将会标配深度学习功能、神经网络功能和机器视觉处理、分析功能。

趋势二：机器视觉芯片出现细分。CV芯片将随着应用领域不同而出现细分，如分为专用的自动驾驶CV芯片、无人机导航CV芯片、AR/VR应用CV芯片等。因为在某个特殊领域，随着机器视觉算法应用需求越来越多，必然带来成本的需求，以增加产品的利润，所以，在CV芯片上做costdown，裁减非本领域的应用功能，并不断深化该领域应用是必然的。

趋势三：低功耗，SOC方式。云+端的方式，通过端完成关键的机器视觉功能，把处理结果传回云，利用云端做分析判断。这种方式优势是减少网络带宽，把视频处理运算由中心分散到前端，这个笔者一定是未来的一个重要趋势。因此，作为端的CV芯片必须是低功耗并且带有一定的CPU功能，需要做到单颗电池续航能力持久，并且具备一定的数据通信、任务调度功能。

打开APP阅读更多精彩内容