计算机视觉作为一个领域是一个智力前沿。像任何前沿一样,它令人兴奋且杂乱无章,而且常常没有可靠的权威可以求助。许多有用的思想没有理论基础,有些理论在实践中毫无用处;发达地区分布广泛,往往一个看起来完全无法与另一个相提并论。尽管如此,我们在这本书中试图呈现一幅相当有序的领域图景。我们看到的是计算机视觉或仅仅是“视觉”;向那些研究人类或动物视觉的人致歉,他们把人类或动物的视觉视为一个企业,他们使用统计方法,利用几何、物理和学习理论构建的模型来理清数据。因此,在我们看来,视觉依赖于对相机和图像形成的物理过程(本书第一部分)的扎实理解,从单个像素值(第二部分)中获得简单的推断,将多个图像中可用的信息组合成一个连贯的整体(第三部分),将某些顺序强加给像素将它们彼此分离或推断形状信息(第四部分),并使用几何信息或概率技术识别物体(第五部分)。计算机视觉有着广泛的应用,包括旧的(如移动机器人导航、工业检测和军事智能)和新的应用(例如,人机交互、数字图书馆中的图像检索、医学图像分析和计算机图形学中合成场景的真实感绘制)。
计算机视觉的一大诀窍是从图片或图片序列中提取对世界的描述。这无疑是有用的。拍照通常是非破坏性的,有时是谨慎的。它也很容易而且(现在)便宜。用户所寻求的描述在不同的应用程序之间可能有很大的不同。例如,一种称为“运动结构”的技术可以从一系列图片中提取描述的内容和相机如何移动的表示。娱乐业的人们使用这些技术来建立建筑物的三维(3D)计算机模型,通常保持建筑物的结构并放弃运动。这些模型用于实际建筑无法建造的地方;它们被纵火、炸毁等。好的、简单的、准确的、令人信服的模型可以从相当小的一组照片中建立起来。想要控制移动机器人的人通常会保持运动而丢弃结构。这是因为他们通常知道机器人工作的区域,但通常不知道机器人在该区域的精确位置。他们可以根据固定在机器人上的摄像机是如何移动的信息来确定的。计算机视觉还有许多其他重要的应用。一种是医学成像:一种是建立软件系统,可以增强图像,识别重要的现象或事件,或者可视化成像获得的信息。另一种是检查:一种是对物体拍照,以确定它们是否在规格范围内。第三个是解释卫星图像,这两个目的都是为了军事目的(可能需要一个程序来确定某个地区最近发生了什么军事上有趣的现象;或者说轰炸造成了什么样的破坏)和民用目的(今年的玉米收成是什么?还剩下多少雨林?)第四个问题是组织和组织图片集。我们知道如何搜索和浏览文本库(尽管这是一个仍有许多难题的课题),但不知道如何使用图像库或视频库。
计算机视觉在其发展中处于一个非常重要的阶段。这门学科自20世纪60年代就已经出现了,但直到最近才有可能利用计算机视觉的思想来建立有用的计算机系统。这种繁荣是由几个趋势推动的:计算机和成像系统变得非常便宜。不久前,要获得好的数码彩色图像需要数万美元,而现在最多只需要几百美元。就在不久以前,彩色打印机是人们在少数几个研究实验室(如果有的话)中发现的东西;现在它们在许多家庭中都有。这意味着做研究更容易。这也意味着,有许多人的问题,计算机视觉的方法适用。例如,人们希望组织他们的照片集,制作周围世界的三维模型,以及管理和编辑视频集。我们对视觉基础的基本几何和物理的理解,更重要的是,我们对视觉的理解有了很大的提高。我们开始能够解决很多人关心的问题,但是难题都没有解决,还有很多简单的问题也没有解决(在努力解决难题的同时保持一个人的智力健康)。现在是学习这个课题的好时机。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !