图像识别中的深度学习

电子说

1.2w人已加入

描述

现阶段比较受欢迎的图像识别基础算法为深度学习法,深度学习模型属于神经网络,而神经网络的历史可追溯至上世纪四十年代,曾经在八九十年代流行。神经网络试图通过模拟大脑认知的激励,解决各种机器学习的问题。1986年Rumelhart、Hinton和Williams在《自然》发表了著名的反向传播算法用于训练神经网络,直到今天仍被广泛应用。

但是后来由于种种原因,大多数学者在相当长的一段时间内放弃了神经网络,转而采用诸如支持向量机、Boosting、最近邻等分类器。这些分类器可以用具有一个或两个隐含层的神经网络模拟,因此被称作浅层机器学习模型。它们不再模拟大脑的认知机理;相反,针对不同的任务设计不同的系统,并采用不同的手工设计的特征,例如语音识别采用高斯混合模型和隐马尔可夫模型,物体识别采用SIFT特征,人脸识别采用LBP特征,行人检测采用HOG特征。

深度学习在计算机视觉领域最具影响力的突破发生在2012年,Hinton的研究小组采用深度学习赢得了ImageNet图像分类的比赛。ImageNet是当今计算机视觉领域最具影响力的比赛之一,它的训练和测试样本都来自于互联网图片,训练样本超过百万,任务是将测试样本分成1000类。自2009年,包括工业界在内的很多计算机视觉小组都参加了每年一度的比赛,各个小组的方法逐渐趋同;2012年,排名2到4位的小组都采用的传统模拟识别方法,他们准确率的差别不超过1%,而首次参赛的Hinton研究小组采用的是深度学习的方法,且准确率超出第二名10%以上。这个结果在计算机视觉领域产生了极大的震动,掀起了深度学习的热潮。

与传统模式识别相比,深度学习最大的不同在于它是从大数据中自动学习特征,而非采用手工设计的特征模型。在过去几十年模式识别的各种应用中,手工设计的特征处于统治地位,它主要依靠设计者的经验知识,很难利用大数据的优势;由于依赖手工调整参数,特征的设计中只允许出现少量参数。深度学习的优势则显而易见——大数据中可以包含成千上万的参数,用来训练深度学习的数据越多,深度学习算法的鲁棒性、泛化能力就越强。

目前,深度学习算法的训练数据普遍都是几十万、上百万级,像一些互联网行业的IT巨头们,他们的训练数据会是上千万、甚至上亿级别,这也是国外如Google、Facebook、Microsoft等,国内如百度、腾讯等IT巨头在深度学习算法的应用效果上有着一定优势的原因。但IT企业与安防企业所用的训练数据不同,IT巨头拥有的是互联网,安防企业拥有的则是安防大数据。二者图像识别技术的关注点也有不同,IT巨头的人脸识别技术是服务于他们的商业目标,比如图像检索、身份认证、无人驾驶等,而安防企业主要关注的是人脸识别技术在公共安全领域的应用。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分