双目视觉感知原理是什么，与毫米波雷达有什么区别？

高工智能汽车 2018-08-06 17049

“双目视觉可能在国内研究的厂家还比较少，但实际上它在国际上应用的范围已经比较广了，尤其在日本，欧美的厂家更多，但是日本的产品相对来讲比欧美的还要再成熟一些。”中科慧眼联合创始人兼COO孟然表示，从06年开始一些高端配置的车型也应用了双目视觉的系统，比如路虎、捷豹、斯巴鲁。

那么双目视觉感知原理是什么？它属于380到760纳米可见光的范围，实际上它比单目和毫米波雷达的区别是什么？双目是两种类别的传感器（我指的仅仅是用于防撞这个功能）。

中科慧眼联合创始人兼COO孟然在2018高工智能

商用车开发者大会上发表主题演讲

双目视觉实际上是基于两路视频的视差，就是左眼与右眼对于同一个目标所形成的图像像素点的差异，像素点的差异通过基线，就是两个摄像头之间的间距关系。基线的距离，视差加上焦距，就可以换算出来你与我之间的距离，实际上就是一个三角关系。

你会发现这个视差越大，物体会离你越近。用这个原理去进行距离的测定，以此再进行防撞系统的开发。

去年我们参与了百度阿波龙量产项目，这是测试场的测试情况，这里面的颜色也是双目所形成的三维的数据，红色代表比较近，蓝色、黑色代表比较远，在形成了所有障碍物的信息后，与前面的超声波、激光、毫米波去进行融合，最后给出了最终的防撞策略。

在阿波龙量产的小巴它实际上是四层的防撞系统，最外层的是毫米波，它只是正向的，然后一圈的是激光雷达，这是第二层，比毫米波要近一些，是在100米左右，在60米到80米左右是用的视觉，在视觉的内部是一圈的超声波，它是形成了四层的防撞系统。

右边是实时场景，左边是双目感知出来的效果图

其实，行业内有好多人会问，单目视觉和双目视觉到底有什么区别？他们是应用了同样的电磁波波长的两套不同的系统，因为他们测试的原理不一样，单目视觉是基于识别的原理，进行距离的测定。

双目视觉是通过我刚刚讲的三角关系，通过视差的方式实现距离的测量，它就像雷达通过发射时间与反射的时间差距测量一样，他们是基于不同的原理，所以双目不依赖与识别、样本库、分类器，它是不识别物体类别的，这个跟单目不一样。

同时，我们在双目里面想植入成熟的单目感知算法，它与双目相机本身感知数据进行一个DoubleCheck，做一个融合取舍，再与雷达做融合，形成最终感知的结果。这个在阿波龙里已经用到了。

到底双目能够达到多远，对于视觉来讲，从原理上来讲是没有一个极限的，因为它跟镜头有关，如果你用放大镜可能只用看到几厘米，对于一个传感器，跟它的镜头有很直接的关系。

原则上来讲，镜头的焦距越远，看到的越远，但是你的视角会变窄，镜头的焦距越窄，你看的越近，但是你的视角会变大。如果双目之间的距离越大，原则上你看的是越远，但是你近处看不到的地方也会变的越大，所以无限的放远与无限的放近实际上都是不好的。

我们如何定义镜头的焦距跟项目本身是有关的，比如你是一个低速车，我要尽可能的放大视角，我们把测定的距离放到五六十米，因为你只有三四十迈。但是如果你是一个高速车，比如说一百公里到两百公里的车速，我们可能把这个距离放的很远，比如看到120、150米，但是你的视角可能会变窄。

在低速小巴上，我们用的是两套系统，一套是50度40米的，一套是38度80米的，在国内微循环的小巴普遍使用的25帧的频率，欧美用的是30帧。

我们还有一款即将发布的四目相机一体化视觉解决方案，除了双目避障以外还有两个双焦的镜头，适用于红绿灯、标识线等识别。

现在行业还有一种说法，视觉传感器到底它的必要性在哪儿？视觉是可以感知颜色的，可以感知可见光，但是毫米波、激光包括超声波它有自己的物理性质，这个是没办法改变的。

对于一套自动驾驶系统来话，信息融合肯定是避免不了的，像视觉可能它担心的是什么？它担心的是强逆光、致盲，像毫米波或者激光可能在这个方面是没有问题的。

但在黑色的感知效果上，视觉又要强于毫米波和可见光，所以不同的场景、不同的时间、不同的环境，可能这种波所固有的性质你是改变不了的，所以自动驾驶系统一般来讲都是做多传感技术的融合。

视觉在融合里起到什么作用？它一定是作用于中近距离，视觉在远距离测距上是不如激光或者毫米波的精度那么高，而且没有那么快的响应速度。

在你开高速的时候你可以用余光一边聊天一边看手机就开了。但是当你倒车的时候为什么要左看右看慢慢的倒呢？就是因为一个物体离你越近，你需要看到的东西就越细。

当我们高速行驶的时候，可能不需要看的那么详细，所以在高速上行驶的是探测几百米以外的小汽车或者大货车的时候，我们用雷达打这个线束是没有问题的。

但是当你在做低速驾驶，比如说城市街道，比如园区，尤其对于小障碍物的时候，更致密的感知是更必要的，这就是视觉的优势。比如说园区里面的垃圾筒，小猫小狗的感知，如果用16线或者32线的激光雷达线束打过去以后可能打不到。

视觉的优势在于它更致密，而不是精度更高，测的更远，视觉是聚焦在中近距离，雷达是聚焦在中远距离。

双目视觉可以形成路面的点云图，颜色是代表距离，纵向有一千行，横向有一千多行，这个是跟目前雷达最大的不同，它把更加致密的点云给到数据融合的模块。

这是夜晚的情况，对于图像来讲，它最好的效果实际上是在天空、路面、景物、轮胎、人、车，所有的障碍物之间有一个很好的对比度，有一个很高的信号比，所以我们在夜晚低光的情况，还是在白天太阳特别强烈的情况下，我们希望得到的图像是一样的，每一个类别之间有一个很好的对比度。

对于视觉来讲也有两种算法，一个是基于面的，一个是基于边缘的，基于面的点云会更致密，我们之前看到的所有三维的图，但是基于边的，它的数据的可靠性更强。

打开APP阅读更多精彩内容