计算机视觉倚靠几何洞察发展

消耗积分:0 | 格式:rar | 大小:0.12 MB | 2017-09-30

分享资料个

　　如今，深度学习已颠覆计算机视觉领域，端到端的深度学习模型几乎是任何问题的最佳解决方案。尤其是卷积神经网络（CNN），因为它效果拔群而广受欢迎。可是，这些深度学习模型都像是一个个黑盒子，盒子内的奥秘仍然不为人所知。笔者认为，现在的研究人员只是简单地写少量代码来调用深度学习接口，尽管这种直白的使用方式能解决大多数计算机视觉问题，但是最终效果显然还存在更大的提升空间。

　　是我曾经开发的一种使用深度学习技术判断摄像头姿态的算法。这是计算机视觉领域的一个经典问题，并且有非常完整的相关理论研究。当时用深度学习训练了一个端到端的模型，这个模型取得了很好的效果。可是，现在回想，觉得当时自己完全忽略了这个问题的已有理论背景。在本文的末尾作者补充了相关工作的最新进展，从更偏向理论的角度重新审视了问题，并用基于几何的方法取得了巨大的效果提升。

　　简单地调用深度学习接口就能解决问题的时代即将结束，计算机视觉领域的下一次进步将源自对几何形态的深入研究。

　　为何源自几何

　　在计算机视觉领域，几何描述这个世界的结构和形状，涉及深度、体积、形状、姿态、视差、运动和光流等测量角度。

　　几何在视觉模型中地位较高的原因在于几何定义了这个世界的结构，而且我们人类能理解这种结构（比如，从经典的中学习）。因此，有很多复杂的几何关系并不需要利用深度学习技术从头学起，比如，物体的深度和运动状态等。通过使用已有的几何知识构建体系结构，我们可以将它们对应到现实中，简化了学习过程。本文结尾的一些示例将介绍如何使用几何来提高深度学习架构的性能。

　　另一种范式是使用语义表示。语义表示指的是用语言来描述物体在现实中的关系。例如，我们可以将物体描述为“猫”或“狗”。但是，几何在语义上有两大特性：

　　几何形态可以直接观察。人们直接用视觉观察这个世界的几何形态。在最基本的层面上，人们可以通过追踪帧与帧之间相应像素的关系来直接观察物体的运动状态和深度情况。另外一些有趣的例子，包括根据阴影观察形状或是从立体视差推测深度。与此相反，语义表示是人类语言所特有的，每个标签对应于一个名词实体，无法直接观察。

　　几何是基于测量的连续变量。例如，人们可以用“米”来度量深度或是用像素来衡量视差，而语义表征则是离散量或二值标签。

　　为什么这些属性很重要呢？其中一个重要的原因在于这些属性对无监督学习非常有帮助。

　　英国剑桥中心，几何结构的运动重建，来自于手机的视频拍摄

　　无监督学习

　　无监督学习无需标注数据就能学习物体的表示和结构。获取大量的已标注训练数据需要耗费财力物力，因此无监督学习提供了更具扩展性的框架。

　　作者上面提到几何学的两个特性正好可以用来训练无监督学习模型：可观察性和连续表示。

　　例如笔者去年发表的一篇，介绍了如何利用无监督训练和几何形态来预测物体的深度，这篇论文给出了几何学原理与上述两个特性结合形成无监督学习模型的绝佳案例，也有几篇思路类似的。

　　语义还不够吗？

　　语义在计算机视觉领域一直备受关注，许多高引用论文成果都来自图像分类和语义分割领域。

　　仅依靠语义来设计一套表达方式会存在问题，因为语义是由人类定义的。人工智能系统理解语义并提供与人类交互的接口必不可少，而语义是人类定义的，很有可能这种定义并不是最合理的定义方式。直接从观察到的几何世界学习可能更自然。

　　与此同时，低层次的几何形态也是婴儿学习观察世界的形式。根据的调查，人类在出生后的前九个月学习协调眼睛的聚焦和感知深度、颜色和几何形状等属性。直到第十二个月才学会如何识别物体和语义。这说明在人类视觉中学习几何学的基础是非常重要的，人类会很好地把这些洞察融入到计算机视觉模型中。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

计算机视觉倚靠几何洞察发展

计算机视觉前景光明

计算机视觉是什么 计算机视觉历史及发展趋势

计算机视觉体温测量系统

计算机视觉驱动的迪斯科开源分享

计算机视觉开发板说明书

使用计算机视觉进行电梯乘客计数

使用带有计算机视觉的手势控制伺服电机

实时计算机控制系统原理及应用综述

模式识别和计算机视觉手册

基于计算机视觉的客机舱门识别与定位方法

计算机辅助几何设计中的Bézier曲线构造

详谈机器视觉与计算机视觉的异同

基于计算机视觉的共享单车违规停放检测

基于1602加矩阵键盘的简易计算机原理图及源码

机器视觉与计算机视觉的区别的讲解

双目立体计算机视觉的立体匹配研究综述

基于计算机视觉和NLP的跨媒体问答与推理

基于C#的密尔计算机工具MilCalc

计算机视觉之目标检测

机器视觉与计算机视觉的概念到底有什么区别

机器学习和计算机视觉的前20个图像数据集

如何快速学习计算机视觉图像的分类

计算机视觉算法与应用的PDF电子书明细账

如何使用FPGA总结设计CPU和计算机

Python计算机视觉编程的PDF电子书免费下载

计算机的发展概况及常用的码制与微型计算机的工作过程详细说明

计算机的基本结构和工作原理详细说明

大话计算机教程之狂想计算机PDF电子书免费下载

计算机视觉概论完成主成分分析和分类开始运动估计

学习计算机视觉的必读和选读书籍清单你学习过吗

人工智能计算机视觉的详细资料概述

计算机视觉有哪些优缺点

机器视觉和计算机视觉有什么区别

计算机视觉的五大技术

计算机视觉的工作原理和应用

计算机视觉与人工智能的关系是什么

计算机视觉与智能感知是干嘛的

计算机视觉和机器视觉区别在哪

计算机视觉属于人工智能吗

深度学习在计算机视觉领域的应用

机器视觉与计算机视觉的区别

计算机视觉的主要研究方向

计算机视觉的十大算法

什么是计算机视觉？计算机视觉的三种方法

最适合AI应用的计算机视觉类型是什么？

人工智能计算机视觉方向是什么

机器视觉和计算机视觉的区别

什么是机器视觉？机器视觉与计算机有什么关系？

计算机视觉相关概念总结

计算机视觉识别是如何工作的？

计算机视觉就业前景

计算机视觉的基础概念和现实应用

了解计算机视觉发展未来的核心技术

计算机视觉的重要性及如何帮助解决问题

计算机视觉技术现状和发展趋势

计算机视觉入门指南

现代企业计算机视觉发展的主要趋势是什么

计算机视觉常用算法_计算机视觉有哪些分类

计算机视觉的发展历史_计算机视觉的应用方向

计算机视觉技术简介

你真的了解什么是计算机视觉吗?

下载排行榜

计算机视觉是什么计算机视觉历史及发展趋势