深度解析3D摄像头技术与应用报告

新机器视觉 2019-06-18 19078

描述

近几年，国外的巨头公司都在3D摄像头产业链上布局：意法半导体、滨松、欧司朗、艾迈斯、博通等元器件及模组生产厂商，苹果、微软、英特尔、三星、谷歌、索尼等综合系统方案商，都在抢食这块“肥肉”。

你的双眼，你了解吗？

在自然界中，同样的景物，在不同的动物眼里却是有所差异的的。某些哺乳动物如牛、马、羊等，它们的两眼长在头的两侧，因此两眼的视野完全不重叠，左眼和右眼各自感受不同侧面的光刺激，这些动物仅有单眼视觉（monocular vision）。人和灵长类动物的双眼都在头部的前方，两眼的鼻侧视野相互重叠，因此落在此范围内的任何物体都能同时被两眼所见，两眼同时看某一物体时产生的视觉称为双眼视觉（binocular vision）。双眼看物体时，主观上可产生被视物体的厚度以及空间的深度或距离等感觉。当两只眼睛分别形成的物体被转化成神经信号传输到大脑以后，大脑就会对它们进行综合加工处理，两个物体相同的地方合二为一，不同的地方就代表物体不同维度上的特征。这样一来，两个物体就合成为一个具有很强立体感的物体了。因此双眼视觉也称为立体视觉（stereopsis)。

立体视觉

3D摄像头是什么炫酷的装备？

我们通常接触的普通摄像头只是二维的，没有深度的，也就是每一个景象都是平面的连续播放。这样的摄像头是无法人们提供身临其境的感受的！而3D摄像头在二维图像的基础上增加了对拍摄对象的深度测量，即三维的位置及尺寸信息，从而形成三维图像，其“看到”的景象和眼睛所看到的景深是类似的。

业界认为2D向3D摄像头的转变将成为继黑白到彩色、低分辨率到高分辨率、静态图像到动态影像后的第四次革命。如果说触摸屏实现了交互方式从一维到平面，那么3D摄像头将让交互方式从平面变成立体。3D摄像头为许多“痛点型应用场景”打开了局面，当前科技界炙手可热的领域如人机交互、人脸识别、AR/VR、辅助驾驶等等，都离不开3D摄像头，3D摄像头是未来人工智能“开眼看世界”的提供者！

人脸识别以前主要应用在门禁考勤系统、防盗门等，后续电子护照及身份证也大量采用该项技术。公安、司法和刑侦利用人脸识别系统和网络，在全国范围内搜捕逃犯。在金融业务上，电子商务、智慧银行采用人脸识别，也成了企业增强市场竞争力的手段。人脸识别在消费市场的机会越来越多，比如移动端的身份认证、支付交易确认、权限登录，手机自拍的快速对焦、自拍美颜等……人脸识别带来的便利性将带来人类生活消费方式的变革！

2015年马云在德国汉诺威消费电子、信息及通信博览会上“刷脸”

图像采集则是人脸识别的入口，摄像头采集的图像信息质量直接决定了最终判断的准确性。但是，目前所有的人脸识别摄像头采集的都是二维图像/视频信息，缺失了深度的图像使得各种欺骗人脸识别应用的合成图像或视频有了可趁之机：PS换脸、屏幕翻拍、戴面具、建模驱动等。而如果利用3D摄像头实现三维人脸活体识别，那么不管合成的图像或视频多么逼真，它只能在屏幕上呈现二维图像，注定是无法通过三维人脸活体检测的！

摄像头是人脸识别系统的入口

手势识别的应用场景非常广泛，无论是消费级市场的游戏、娱乐，还是汽车市场等，都需要丰富的手部动作来参与。这块的市场爆发力将非常强大！目前的二维手势识别只能做到一些比较简单的操作，比如控制视频播放开始和暂停、浏览照片等。但是对于更加复杂的体育类游戏或者AR/VR来说，二维手势识别还不够完美。未来集成3D摄像头的智能硬件将极大地促进三维手势识别的普及和应用，这也将带来比触摸屏交互更加接近人类方式的交互式体验。

手势识别应用

在汽车辅助驾驶系统，3D摄像头的引入更是赋予了汽车的“第六感”。3D摄像头可以时刻追踪司机的眼皮动作，当检测驾驶员有困倦或注意力不集中式能立即做出响应甚至气动紧急制动系统。配合雷达，还可以提供精准的路面状况信息，避免车祸的发生。

3D摄像头呈现的三维路面图像

在消费电子领域，3D摄像头也即将引爆市场。2016年，全球首款搭载Tango技术的智能手机：联想和谷歌凭借PMD独家3D技术重新定义了移动设备的新类别。而智能手机的“风向标”苹果公司中将在新一代iPhone 8中将配置3D摄像头的传言已经闹得纷纷扬扬。

联想PHAB2 Pro手机搭载Tango AR技术，具备3D测绘功能

3D摄像头——国外争相布局的产业

微软是最早涉足3D视觉的公司之一，在2010年与PrimeSense合作，推出了XBOX360体感周边外设——Kinect1代。颠覆了游戏的单一操作，使人机互动的理念彻底地展现出来。在Kinect上市后的头60天内，微软总计卖出了800万台，成功拿下了“吉尼斯世界纪录中销售速度最快消费者设备”的头衔。2012年微软先后收购了ToF（飞行时间光）相机公司canesta和3dv，自行开发了Kinect2代，采用ToF原理，在精度、分辨率和响应时间都有很大的提升。2015年，微软研究院的发明Handpose,，目的是让计算机精确地识别手势动作，并应用在2016年问世的AR头戴式显示器HoloLense。

微软Kinect 1代

谷歌，作为人工智能的专家之一，早已敏锐地嗅到了3D视觉市场的机会。其明星项目Project Tango在2016年成功植入联想手机PHAB2 Pro，提前在移动端运动追踪、深度感知和区域学习方面实现布局。2015年的谷歌开发者大会上提出了的60GHz毫米波手势识别技术Project Soli更是让人耳目一新，采用的60GHz毫米波弥补了红外光无法穿过被遮挡物的缺点。

Tango采集三维信息输出“点云”数据

2013年11月，苹果收购以色列3D传感器生产商PrimeSense，便暴露了其将3D体感控制器小型化并配置在PC、电视并最终到智能手机等消费电子产品的野心。乐观估计，苹果公司十周年推出的iPhone 8有望见证这一黑科技。

2016年苹果发布的3D手势识别专利示意图

而微软在2012年也开始涉及实感技术，2015年推出全新的RealSense。作为一款智能3D摄像头，主要有三部分组成：（1）传统的2D摄像头；（2）近红外图像传感器；（3）红外激光发射器。英特尔RealSense 3D摄像头有两种类型：一种是用于远距离、精度稍低的后置3D摄像头；另一种是用于近距离、精度较高的前置3D摄像头。目前，RealSense 3D 摄像头已经集成到戴尔、联想、华硕、惠普、宏碁等厂商的产品。

RealSense 3D摄像头组成——远距离使用（左图）&近距离使用（右图）

中国——3D摄像头产业链雏形已形成

麦姆斯咨询整理出中国3D视觉产业链，整个产业链生态圈已初步形成。

麦姆斯咨询用一张图展示中国3D视觉产业链

在核心元器件领域：红外LED设计企业有三安光电、乾照光电，晶圆制造商有三安光电，封装测试有聚飞光电、联创光电；VCSEL（垂直腔面发射激光器，Vertical Cavity Surface Emitting Laser）提供商有华芯半导体、光迅科技、昂纳科技集团；MEMS微镜提供商有微奥科技、励德微系统、创微电子；图像传感器设计企业有北京君正（收购豪威科技）、思比科、格科微、比亚迪微电子，芯片制造商有中芯国际，封装测试商有晶方科技和华天科技；滤光片和镜头提供商有水晶光电、舜宇光学、联创电子和歌尔股份；图像处理芯片提供商有北京君正、全志科技和瑞芯微。

在摄像头模组领域：欧菲光、舜宇光学、丘钛科技、歌尔股份（但是近期歌尔股份退出了摄像头模组领域的竞争）。

在应用方案领域按原理可分为三类：结构光法提供商（图漾科技、奥比中光和华捷艾米），飞行时间法提供商（海康威视、舜宇光学和乐行天下），多目（双目）立体视觉法提供商（图漾科技、纵目科技、凌云光技术、西纬科技和弼智仿生）。

3D视觉测量原理知多少

要谈3D视觉应用方案，就必须先弄清楚光学测量分类以及其原理。光学测量分为主动测距法和被动测距法。

主动测距方法的基本思想是利用特定的、人为控制光源和声源对物体目标进行照射，根据物体表面的反射特性及光学、声学特性来获取目标的三维信息。其特点是具有较高的测距精度、抗干扰能力和实时性，具有代表性的主动测距方法有结构光法、飞行时间法、和三角测距法。

机器学习

光学测距法的分类

1. 主动测距法

（1）结构光法

根据投影光束形态的不同，结构光法又可分为光点式结构光法、光条式结构光法和光面式结构光法等。

机器学习

三种结构光法测量的原理图

目前应用中较广，且在深度测量中具有明显优势的方法是面结构光测量法。面结构光测量将各种模式的面结构投影到被测物体上，例如将分布较密集的均匀光栅投影到被测物体上面，由于被测物体表面凹凸不平，具有不同的深度，所以表面反射回来的光栅条纹会随着表面不同的深度发生畸变，这个过程可以看作是由物体表面的深度信息对光栅的条纹进行调制。所以被测物体的表面信息也就被调制在反射回来的光栅之中。通过被测物体反射回来的光栅与参考光栅之间的几何关系，分析得到每一个被测点之间的高度差和深度信息。

结构光的优点是计算简单，测量精度较高，对于平坦的、无明显纹理和形状变化的表面区域都可进行精密的测量。其缺点是对设备和外界光线要求高，造价昂贵。目前，结构光法主要应用在条件良好的室内。

（2）飞行时间法（ToF）

飞行时间（Time of Flight，简称ToF）法，又叫做激光雷达（LiDAR）测距法。它将脉冲激光信号投射到物体表面，反射信号沿几乎相同路径反向传至接收器，利用发射和接收脉冲激光信号的时间差可实现被测量表面每个像素的距离测量。

机器学习

飞行时间（ToF）深度测量法的原理示意图

ToF直接利用光传播特性，不需要进行灰度图像的获取与分析，因此距离的获取不受物体表面性质的影响，可快速准确地获取景物表面完整的三维信息。缺点则是需要较复杂的光电设备，价格偏贵。

（3）三角测距法

三角测距法又称主动三角法，是基于光学三角原理，根据光源、物体和检测器三者之间的几何成像关系来确定空间物体各点的三维坐标。在实际测量过程中，它常用激光作为光源，用CCD相机作为检测器。这种方式主要用于工业勘探、工件表面粗糙度检测、轮胎检测、飞机检测等工业、航空、军事领域，在消费电子类产品还不曾涉及。

机器学习

基于激光三角法测量系统简图

2. 被动测距法

被动测距技术不需要人为地设置辐射源，只利用场景在自然光照下的二维图像来重建景物的三维信息，具有适应性强、实现手段灵活、造价低的优点。但是这种方法是用低维信号来计算高维信号的，所以其使用的算法复杂。被动测距按照使用的视觉传感器数量可分为单目视觉、双目立体视觉和多目视觉三大类。

（1）单目视觉

单目视觉是指仅利用一台照相机拍摄一张相片来进行测量。因仅需要一台相机，所以该方法的优点是结构简单、相机标定容易，同时还避免了立体视觉的小视场问题和匹配困难问题。

机器学习

单目视觉测量示意图

单目视觉方法又可分聚焦法和离焦法两类。聚焦法是指首先使相机相对于被测点处于聚焦位置，然后根据透镜成像公式求得被测点相对于相机的距离。相机偏离聚焦位置会带来测量误差，因此寻求精确的聚焦位置是关键所在。而离焦法不要求相机相对于被测点处于聚焦位置，而是根据标定出的离焦模型计算被测点相对于相机的距离，这样就避免了由于寻求精确的聚焦位置而降低测量效率的问题，但离焦模型的准确标定是该方法的主要难点。

（2）双目立体视觉

双目立体视觉的基本原理是从两个视点观察同一景物，以获取在不同视角下的感知图像，然后通过三角测量原理计算图像像素间的位置偏差（视差）来获取景物的三维信息。这一过程与人类视觉感知过程是类似的。

机器学习

双目立体视觉测量示意图

在双目立体视觉系统的硬件结构中，通常采用两个摄像机作为视觉信号的采集设备，通过双输入通道图像采集卡与计算机连接，把摄像机采集到的模拟信号经过采样、滤波、强化、模数转换，最终向计算机提供图像数据。一个完整的双目立体视觉系统通常可分为数字图像采集、相机标定、图像预处理与特征提取、图像校正、立体匹配、三维重建六大部分。

（3）多目立体视觉

多目立体视觉系统是对双目视觉系统的一种拓展。所谓多目立体视觉系统，就是采用多个摄像机设置于多个视点，或者由一个摄像机从多个视点观测三维景物的视觉系统。

机器学习

多目视觉测量示意图

对多目系统所采集到的景物图像进行感知、识别和理解的技术被称为多目立体视觉系统技术。在双目立体视觉中，对于给定的物体距离，视差与基线长度成正比，基线越长，对距离的计算越精确。但是当基线过长时，需要在相对较大的视觉范围内进行搜索，从而增加计算量。利用多基线立体匹配是消除误匹配、提高视差测量准确性的有效方法之。基线数目的增加可以通过增加相机来实现。

一张表看懂3D视觉应用案列

目前市场上的3D视觉采用的应用方案原理主要有三种：结构光法、ToF法和多目（双目）立体视觉法。就其优缺点，应用领域和实际案例，下面一张图则做了总体的概括。

机器学习

一张表看懂3D视觉应用方案优缺点及案例

一张图展示国内外3D视觉应用方案主要玩家

在3D视觉应用方案领域三大原理的提供商分别有：

多目（双目）立体视觉法提供商：国外（英特尔、微软，Leapmotion）；国内（图漾科技、纵目科技、凌云光技术、西纬科技和弼智仿生）。

结构光法提供商：国外（英特尔，谷歌）；国内（图漾科技、奥比中光和华捷艾米）。

飞行时间法提供商：国外（微软、谷歌、英飞凌、德州仪器、意法半导体），国内（海康威视、舜宇光学和乐行天下）。

一张图展示国内外3D视觉应用方案主要玩家

摄像头模组——智能手机的兵家必争之地

最近三年间，每部智能手机的摄像头模组成本从15美元上升到近25美元，不少手机的配置数量也从1颗增至3颗。智能手机的各大巨头，如苹果、三星、华为、OPPO、VIVO、小米、LG等的旗舰机采取了差异化的摄像头战略。随着人们在微信朋友圈、Facebook和Snapchat等社交网站上PO图的热情高涨，对照片的要求也越来越高，一款能突出主体、色彩艳丽又能增加颜值的智能手机对消费者的吸引力是巨大的，摄像头成了智能手机厂商争夺市场的一把利器。

机器学习

每部智能手机摄像头数量的发展趋势

智能手机在摄像头模组上可谓费尽心思，后置摄像头、前置摄像头，增加像素，加大镜头和感光元件，这些还不够。双摄像头的方案逐渐成为主打方案：主摄像头+辅助摄像头，做到类似单反的背景虚化效果；长焦+广角镜头方案，光学变焦的双摄像头模组；RGB+Mono方案，也就是彩色摄像头+黑白摄像头的方案，提高夜拍效果，提亮降噪。从后置双摄像头到前置前置双摄像头，输出的照片焦内更加锐丽清晰，而虚化部分也更加真实。

从本质上讲，双摄像头是一个过渡产品，因为没有深度信息，只能依靠算法进行测算，对于拍照或许能满足摄像爱好者的初级要求，但是对于识别跟踪和智能化增强处理方面，还是需要深度摄像头的帮助才能做到完美。

那么，继双摄像头时代的下个时代会是什么呢？麦姆斯咨询认为，3D成像和传感技术已经在高端市场的“庇护”下逐渐成熟，并在医疗类和工业类领域取得了巨大的成功。2016年，3D成像和传感器件开始出现明显的商业拓展，市场规模超过13亿美元。未来两年，我们很可能看到以智能手机和电脑为首的大量采用3D成像感知设备的消费类产品涌入，iPhone8极有可能采用前置3D摄像头。苹果这座“风向标”对3D摄像头的应用，极有可能将引发“类似指纹传感器在消费类电子上井喷式爆发”的场景再次出现，3D摄像头最终将成为生物识别和脸部识别的主流配置。

3D摄像头模组结构

3D摄像头模组拆解后，其主要硬件包括：红外光发射器（IR LED或VCSEL）、红外光图像传感器（IR CIS或者其他光电二极管）和可见光图像传感器（Vis CIS）、图像处理芯片、滤光片或镜头。此外，室外工作的飞行时间（ToF）方案需要窄带滤光片；结构光方案需要发射端光学棱镜与DOE光栅；双目立体成像方案采用两颗红外光摄像头或两颗可见光摄像头。

典型的3D摄像头模组结构

基于ToF方案的3D视觉系统的工作原理为：首先红外激光发射器发射出近红外光，经过人手或人脸的反射之后，红外信息（IR Light）被红外光图像传感器所接收，这个图像信息用来计算人手所处的位置（Z轴）；同时，可见光图像传感器采集二维平面（X与Y轴）的人手的可见光信息（Vis Light）；图像传感器的信息汇总至专用的图像处理芯片，从而得到人手或人脸的三维数据，实现空间定位。

机器学习

基于ToF方案的3D视觉系统工作原理

从硬件方面讲，3D摄像头模组与普通二维摄像头模组的差异在于红外光发射器的选择上，采用垂直腔面发射激光器VCSEL取代传统的红外LED。VCSEL的优势是驱动电压和电流小、功耗低、光源可调变频率更高（可达数GHz），与化合物半导体工艺兼容，适合大规模集成制造。传言iPhone8的3D摄像头将采用VCSEL+ToF方案，有望将VCSEL带入消费电子蓝海。VCSEL的相关知识在后续的报道中我们会专门做详细讲解。

3D摄像头模组的“春天”真的来了吗？

据Yole报告《3D成像和传感-2017版》，预计3D成像和传感器件市场的复合年增长率为37.7%，2022年将达到90亿美元。如此爆发性的增长让人不禁想起指纹传感器，2013年苹果公司发布了采用指纹识别传感器的iPhone 5S，由此引爆了指纹识别传感器市场，三年间市场规模从几乎为零飙升到几十亿美元。故事的开始惊人的相似，主角都是苹果公司，剧情是否会重演？

机器学习

2011~2022年3D成像和传感器件市场预测

各大公司在3D视觉布局已久，但是一直未出现大规模应用，硬件是制约因素，算法的复杂性和未找到合适的应用场景则是主要原因。从硬件方面讲，单光子雪崩二极管（SPAD）、VCSEL、MEMS扫描镜、近红外图像传感器等技术工艺复杂，国内有能力量产的企业简直是凤毛麟角；3D摄像头模组的工艺流程也较双摄像头模组复杂许多，国内的丘钛科技已有量产的案例。在算法端，3D深度摄像头要求模组厂和算法进行有效配合。3D更偏向于深度摄像技术，它对算法提出的要求更高，它不再满足双摄机械式AA制程。没有合适的应用场景则是导致3D摄像技术一直处于不温不火局面的原因。现在，我们期待苹果（Apple）公司能够迈出重要一步，推动3D成像和传感产业发展。生物识别和脸部识别将成为3D成像和传感技术的主要应用，增强现实（AR）则是另一个重要应用。未来几年，消费类产品对3D摄像头的采用，则是推动该市场的强劲动力！

3D视觉系统的“最强大脑”

图像信号处理器（Image Signal Processor，以下简称ISP），是一种专用数字集成电路，对从CMOS图像传感器中输出的图像数据进行处理，得到经过复原、增强后的数字图像，使其更加接近现实中人眼所看到的图像。

ISP是一款“软硬皆施”的芯片，需要配合专业算法处理传感器数据，如线性纠正、噪点去除、坏点修补、颜色插值、白平衡校正、曝光校正等。通常，图像数据从前端感知后，均须经过ASP（Analog Signal Processing）、ADC（Analog-Digital Converter）、前期影像处理（Pre-ISP）与后端影像处理（Post-ISP）四个阶段后，“完美”的图像才能最终呈现于终端设备上。

成像框图

对于3D视觉系统来讲，如果说图像传感器好比“眼睛”，那么ISP则是它的“大脑”。ISP主要作用如下：

1．拜耳转换

图像传感器中的光电二极管本质上是“色盲”，它们只能记录不同的灰度信息。之所以能呈现出彩色图片，那是因为不同的红、绿、蓝三种颜色滤镜——拜耳滤镜将灰度信息转换成彩色信息。由于每个光电二极管只记录图像的一个像素的颜色信息，像素点只可能有三种颜色：红、绿、蓝，或者什么也没有（黑）。不同颜色的滤光点的排列是有规律的：每个绿点的四周，分布着2个红点、2个蓝点、4个绿点。这意味着，整体上，绿点的数量是其他两种颜色点的两倍。这是因为研究显示人眼对绿色最敏感，所以滤光层的绿点最多。然而，拜耳转换过程相当复杂，涉及到许多不同的操作。成像质量在很大程度上取决于对图像传感器输出原始数据处理的算法优劣。

机器学习

拜耳阵列

2．去马赛克

如上所述，图像处理器对颜色和亮度的赋予像素数据，比较它们与相邻像素的数据，然后采用插值算法计算出这个像素的颜色和亮度值。ISP对整个图片评估，猜测对比度的正确分布。通过调整伽玛值（提高或降低图像的中间色调的对比度范围）进行色彩微调，如人体的皮肤和蓝色的天空，使整个画面与现实更为接近。

3．降噪

噪声在任何电子线路普遍存在。在数码摄影中，一幅流畅的彩色画面出现的明显突兀的色彩随机斑点被视为噪声。噪声随着温度和曝光时间的增加而增多。当选择较高的ISO设置时，图像传感器中的电子信号被放大，同时增加噪声电平，从而导致较低的信噪比。ISP从图像信息中分离噪声并去除它。但面临的相当大的挑战是图像中正常区域可能会被误认为是噪声，导致画面受损。

4．图像锐化

当每个像素的颜色和亮度值被插值时，图像平滑会使图像的边界、轮廓变得模糊。为了增强图像的灰度跳变，保持清晰度和细节完整性，图像处理器必须锐化边缘和轮廓。因此，它必须正确检测边缘，并顺利地复制它们，而不过分锐化。

难以跨越的技术鸿沟

ISP技术壁垒高，要求专业算法层面的深层配合，两者相辅相成，互为补充。ISP虽然可以对样张的质量进行后期处理，但不同的芯片或者使用同一款芯片的不同产品在拍摄性能方面也存在明显的差异，这是因为ISP不仅仅有处理能力，还具有可编程性，经过不同方式调试后的新算法会和集成原厂算法拉开差距。

市面上绝大多数手机都集成了ISP芯片，部分产品则采用了独立的ISP芯片，除了富士通为不少知名机型提供了独立ISP之外，像苹果这样的厂商都是自己定制专属于iPhone的ISP。高通骁龙820集成了Spectra ISP、联发科的Helio P25内置12位双ISP支持，都融合了自家最前沿的ISP。但研发难度相当大，财力消耗大，只有智能手机巨头才有能力建立自己的ISP和专业的算法团队。而国内的华为也投入9800万美金组建顶尖的专业团队，自主开发并由海思半导体制造Hi3516首次搭载在华为Mate 8，开启宣告国产手机突出重围。

机器学习

高通的Spectra ISP拥有双ISP

机器学习

iPhone专属定制的ISP

就芯片集成方式而言，将图像传感器和ISP通过封装集成于一颗模组可以有效降低成本，而业界领头羊索尼已经将图像传感器和ISP直接集成于一颗芯片。2017年，索尼推出的CMOS图像传感器IMX400采用三层堆叠式结构：顶层为CIS，中间层为DRAM，底层则是ISP。全新的三层芯片能够在1/120秒内读取1930万像素图片，是IMX318芯片的4倍。这减少了读取每个像素行的时间间隔。这对于缺乏机械快门来控制曝光的智能手机尤其重要。

机器学习

索尼CMOS图像传感器芯片IMX400的三层堆叠结构

目前全球范围内主要被欧洲和日本巨头所垄断，如意法半导体、德州仪器、英飞凌、恩智浦、安霸、索尼、东芝、富士通等。而在国内，北京君正、全志科技和瑞芯微借助前几年平板电脑的爆发期也获得快速成长，此外还有一些新兴的创业型公司，如兴芯微。

应用：始于工业，盛于消费电子，走向人工智能

ISP的应用领域涉及消费电子、工业、安防、汽车、无人机、机器人等。其中，智能手机是目前ISP的主要应用领域。近几年智能手机厂商都在打摄像头的牌，通过不断改善拍照质量来吸引消费者的眼球。但是，没有ISP与图像传感器、镜头等硬件的高度协同，不论是前置还是后置的双摄像头都仅仅是摄像头性能参数的堆砌和噱头。

当前，人工智能已经延伸至ISP领域。这点苹果应当是布局已久，陆续收购了四家机器学习公司，而机器学习正是人工智能的核心所在。iPhone 7 使用的新款ISP处理能力比之前版本了提高一倍，它可以通过特定的算法获取拍摄对象的更多信息，并据此对成像进行深度处理。在人工智能的驱动下，通过机器学习技术检测到目标、设置曝光、焦距和白平衡。苹果营销总监Phil Schiller表示，这种通过人工智能驱动的ISP能够在25毫秒中进行最多1000亿次的操作，比原先快了60%。谷歌和微软也在不断渲染自己在人工智能上的技术储备，三大IT巨头相继发力，可以预见，人工智能扮演的角色将越来越重要，相信更加智能的ISP已经在路上。

打开APP阅读更多精彩内容