深度学习的长期发展仍在继续

笑尽往事 2023-01-05 1181

电子说

1.4w人已加入

描述

深度学习：神经网络算法的昨天、今天和明天

2016年，人工智能软件包AlphaGo击败韩国围棋大师李世石。围棋是一种两人抽象战略棋盘游戏，其目标是用棋子包围比对手更多的领土。2017年，经过改进的新版AlphaGo（AlphaGo Master）击败了世界围棋第一人柯洁。这种新颖的人工智能 (AI) 系统并没有依靠先前建立的策略来击败人类对手，而是在某些特定领域似乎超越了人类的认知，甚至表现出了一定的思考能力，有效地缩小了当前技术水平与现有技术之间的差距。流行文化想象人工智能可以。

过去，人工智能一直像是遥远的科幻小说。但当今世界很多技术的应用已经达到了堪称人工智能的水平。除了前面提到的围棋软件外，最近还部署了一系列人工智能系统并取得了巨大的效果，包括自动驾驶系统、智能管家，甚至还有苹果智能手机捆绑的语音助手 Siri。这些应用背后的核心算法是深度学习，它是机器学习最热门的分支之一。与其他机器学习算法不同，深度学习依赖于对大量数据进行迭代训练来发现数据的特征并提供相应的结果。其中许多特征已经超越了人类定义特征的表达能力，

然而，深度学习尚未在所有方面超越人类。相反，它完全取决于人类对所使用算法的设计决策。深度学习从诞生到结出我们今天看到的果实，大约用了 50 年的时间。它的发展历史让我们得以一窥计算机科学家一丝不苟的独创性，并提供了一个机会来讨论这个令人兴奋的领域的发展方向。

什么是深度学习？

深度学习利用所谓的人工神经网络 (ANN)。尽管神经网络算法的名称来源于它们模拟动物神经元如何传输信息的事实，但深度学习一词来自所涉及的多层级联神经元——允许在信息传输中实现深度的多个层.

在动物中，神经的一端连接到受体，另一端连接到动物的皮层，信号通过中间的多层神经元传导。神经元实际上并不是一对一连接的，而是有多个连接（如辐射连接和收敛连接），从而形成网络结构。这种丰富的结构最终使得信息的提取和动物大脑中相应认知的产生成为可能。动物的学习过程需要在大脑中整合外部信息。外部信息进入神经系统，神经系统又变成大脑皮层可以接收的信号。将信号与大脑中的现有信息进行比较，从而可以建立完整的认知。

同样，使用计算机编程技术，计算机科学家允许包含某些参数和权重的函数层来模拟神经元的内部操作，使用非线性操作的叠加来模拟神经元之间的连接，并最终重新整合信息以产生分类或预测结果作为输出。为了处理神经网络输出与真实世界结果之间的差异，神经网络通过梯度逐层调整相应的权重以减少差异，从而实现深度学习。

深度学习的起源

令人惊讶的是，模拟动物的神经活动并不是深度学习的专有领域。早在 1957 年，Frank Rosenblatt 就提出了感知器的概念。感知器实际上是一个单层神经网络，只能区分两种类型的结果。该模型非常简单，输出和输入信息之间的关系本质上是一个加权和。虽然权重直接根据输出与真实值的差自动调整，但整个系统的学习能力有限，只能用于简单的数据拟合。

几乎与此同时，神经科学也出现了重大进展。神经科学家 David Hubel 和 Torsten Wiesel 对猫的视觉神经系统进行的研究证实，大脑皮层对视觉特征的反应是由不同的细胞完成的。在他们的模型中，简单细胞感知光信息，而复杂细胞感知运动信息。

受此启发，日本学者福岛邦彦于1980年提出新认知网络模型来识别手写数字（图1）。该网络分为多层，每一层由一种神经元组成。在网络中，两种类型的神经元被用来交替提取和组合图形信息。这两种类型的神经元后来演变成卷积层和提取层，它们仍然非常重要。然而，这个网络中存在的神经元是人工设计的，它们不会自动适应呈现的结果，因此它们不具备学习能力，并且仅限于识别一小组简单数字的基本任务。

深度学习

数字。1：neocognitron 机器的工作机制（来源：Fukushima，Kunihiko。“Neocognitron：一种能够进行视觉模式识别的分层神经网络。”Neural Networks 1.2（1988）：119-130）

当无法实现学习能力时，需要额外的手动设计来代替真正的自学习网络。1982年，美国科学家约翰霍普菲尔德发明了一种神经网络，它有几个限制，可以在变化中保持记忆，从而促进学习。同年，芬兰科学家 Teuvo Kohonen 提出了一种基于无监督算法向量量化神经网络（学习向量量化网络）的自组织映射，希望通过缩短输入和输出之间的欧氏距离，从复杂网络中学习正确的关系。1987年，美国科学家Stephen Grossberg和Gail Carpenter在早期理论的基础上提出了自适应共振理论网络。他们让已知信息和未知信息产生共鸣，从已知信息推断未知信息，实现类比学习。尽管这些网络被附加了自组织、自适应和记忆等关键词，但相应的学习方法并不高效。它需要基于应用本身不断优化设计，再加上网络内存容量小，难以在实践中应用。

直到 1986 年计算机科学家 David Rumelhart、Geoffrey Hinton 和 Ronald Williams 发表了反向传播算法，才逐渐解决神经网络学习问题。神经网络的输出与真实值之间的差异现在可以通过与梯度相关的链式法则反馈到每一层的权重中，从而有效地允许每一层函数以与感知机相同的方式进行训练。这是 Geoffrey Hinton 在该领域的第一个里程碑。如今，他是谷歌的一名工程研究员，并且是图灵奖的获得者，这是计算机科学领域的最高荣誉。

“我们不想建立一个模型来模拟大脑的工作方式，”欣顿说。“我们会观察大脑，同时认为，既然大脑是一个可行的模型，我们应该看看如果我们想创建其他一些可行的模型，大脑会提供灵感。反向传播算法模拟的正是大脑的反馈机制。”

此后在 1994 年，Geoffrey Hinton 小组的博士后计算机科学家 Yann LeCun 结合神经认知机制和反向传播算法创建了 LeNet，这是一种用于识别手写邮政编码的卷积神经网络，实现了 99% 的自动识别，并且能够处理几乎任何形式的手写。该算法取得了巨大成功，并被美国邮政系统投入使用。

深度学习时代来临

尽管取得了上述成就，但深度学习直到后来的某个时候才获得显着的普及。一个原因是神经网络需要更新大量参数（仅 2012 年提出的 AlexNet 就有 65 万个神经元和 6000 万个参数），并且需要强大的数据处理和计算能力（图 2 ）). 此外，试图通过减少网络中的层数来减少数据量和训练时间会使深度学习不如其他机器学习方法（例如在 2000 年左右变得非常流行的支持向量机）有效。Geoffrey Hinton 在 2006 年的另一篇论文首次使用深度信念网络这个名称，其中 Hinton 提供了一种优化整个神经网络的方法。虽然这为深度学习的日后流行奠定了基础，但之所以使用深度网络而不是之前的神经网络绰号，是因为主流研究期刊对神经网络这个词持反感态度，甚至看到论文就拒绝投稿。某些论文标题中使用的词。

深度学习的重大转折发生在 2012 年。计算机视觉领域的科学家开始意识到数据大小的重要性。2010 年，斯坦福大学计算机科学副教授李飞飞发布了 ImageNet，这是一个图像数据库，包含数千万张手动标记的图像，属于 1000 个类别，包括动物、植物、日常生活等领域。从 2010 年到 2017 年，计算机视觉专家根据这些图像举办年度分类竞赛，ImageNet 已成为全球视觉研究中机器学习和深度学习算法的试金石。2012 年，多伦多大学 Geoffrey Hinton 的一名学生 Alex Krizhevsky 通过在两块 NVIDIA 显卡 (GPU) 上编写神经网络算法赢得了 ImageNet 分类竞赛，他的算法大大超过了第二名参赛者的识别率。该网络随后被命名为 AlexNet。这是深度学习快速崛起的开始。

深度学习

图 2：AlexNet 的网络结构（来源：Krizhevsky、Alex、Ilya Sutskever 和 Geoffrey E. Hinton，“Imagenet classification with deep convolutional neural networks”，Advances in Neural Information Processing Systems，2012。）

从 AlexNet 开始，到 ImageNet 的数据支持和商用显卡的计算支持，神经网络架构研究逐渐爆发。首先，由于发布了多个软件包（例如 Caffe、TensorFlow 和 Torch），实施深度学习变得更加容易。其次，ImageNet 分类竞赛和 COCO 竞赛的后续迭代，其中给定的任务涉及更复杂的图像分割和描述，产生了 VGGNet、GoogLeNet、ResNet 和 DenseNet。这些神经网络使用的层数逐渐增加，从AlexNet的11层和VGGNet的19层到ResNet的150层，甚至DenseNet的200层，从而实现了真正的深度学习。在某些关于分类问题的数据集上进行测试时，这些深度神经网络甚至超过了人类的识别精度（ImageNet 上的人类错误率约为 5%，而 SENet 可以达到 2.25%）。这在下表1：

表 1：历届 ImageNet 图像分类竞赛中表现最佳的网络总结（来源：作者根据https://github.com/sovrasov/flops-counter.pytorch的原始论文计算得出）。

年	2012	2013年	2014	2014	2015年	2016年	2017年
网络	亚历克斯网	ZFNet	VGG网	谷歌网	ResNet	ResNeXt	SENet
Top 5 错误率	15.32%	13.51%	7.32%	6.67%	3.57%	3.03%	2.25%
层数	8个	8个	16	22	152	152	154
参数个数	60M	60M	138M	7M	60M	44M	67M

自这一突破以来，计算机科学家越来越多地使用神经网络算法来解决问题。除了上述在二维图像的分类、分割和检测中的应用，神经网络还在时间信号领域甚至无监督机器学习中得到应用。循环神经网络 (RN) 可以按时间顺序接收信号输入。网络的每一层神经元都可以压缩和存储记忆，而网络本身可以从记忆中提取有效维度来进行语音识别和文本理解。当神经网络用于无监督学习时，不是提取主成分或提取特征值，只需使用包含多层网络的自动编码器，即可自动缩小和提取原始信息。将上述与矢量量化网络相结合，可以在不大量使用标记数据的情况下对特征进行聚类并获得分类结果。现在毫无疑问，无论是在有效性还是在应用范围方面，神经网络都已成为无可争议的王者。

深度学习：最新技术和未来趋势

2017 年，ImageNet 图像分类大赛宣布完成决赛。但这并没有预示着深度学习的终结。相反，研究和深度学习应用已经有效地超越了之前的分类问题阶段，进入了广泛发展的第二阶段。与此同时，深度学习相关国际会议论文投稿数量逐年呈指数级增长，表明越来越多的研究人员和工程师正在致力于深度学习算法的开发和应用。未来几年，深度学习的发展将主要顺应以下几个趋势。

首先，从结构上讲，使用的神经网络类型会更加多样化。生成对抗网络 (GANs) 可以执行卷积神经网络的逆过程，自 2016 年首次提出以来发展迅速，已成为深度学习的重要增长领域。因为深度学习算法可以从原始信息（比如图像）中提取特征，那么逆过程在逻辑上应该是可行的。换句话说，应该可以使用杂乱的信号通过特定的神经网络生成相应的图像。正是基于这种洞察力，计算机科学家 Ian Goodfellow 提出了生成对抗网络的概念。除了生成图像的生成器之外，这种类型的网络还提供鉴别器。在训练过程中，生成器倾向于掌握生成的图片，这些图片与真实图片极其接近，而计算机很难区分。相比之下，鉴别器倾向于掌握区分真实图片和生成图片的鲁棒能力。随着两者相互学习，生成的图像越逼真，鉴别器就越难鉴别。相反，鉴别器的能力越大，生成器就越有动力生成新的、更逼真的图像。生成对抗网络有着广泛的应用，从人脸生成和识别到图像分辨率提升、视频帧率提升、图像风格迁移等领域。

其次，此类网络涉及的研究问题往往更加多样化。一方面，在机器学习的其他分支中发现的一些概念，例如强化学习和迁移学习，在深度学习中找到了新的位置。另一方面，深度学习的研究已经从工程试错发展到理论推导。深度学习因缺乏理论支撑而受到批评，在训练过程中几乎完全依赖数据科学家的经验。为了减少经验对结果的影响，减少选择超参数的时间，研究人员除了对最初的经典网络结构进行修改外，还在从根本上修正深度学习的效率。一些研究人员正试图将其他机器学习方法（如压缩感知和贝叶斯理论）联系起来，以促进深度学习从工程试错到理论指导实践的转变。也有人努力解释深度学习算法的有效性，而不是仅仅将整个网络视为黑匣子。与此同时，研究人员一直忙于为超参数主题建立另一套机器学习问题，称为元学习，试图降低超参数选择过程的难度和随机性。也有人努力解释深度学习算法的有效性，而不是仅仅将整个网络视为黑匣子。与此同时，研究人员一直忙于为超参数主题建立另一套机器学习问题，称为元学习，试图降低超参数选择过程的难度和随机性。也有人努力解释深度学习算法的有效性，而不是仅仅将整个网络视为黑匣子。与此同时，研究人员一直忙于为超参数主题建立另一套机器学习问题，称为元学习，试图降低超参数选择过程的难度和随机性。

第三，由于最近大量注入新的研究成果，更多的算法正在商业产品中使用。除了几家开发图像生成小程序的小公司外，大公司也在深度学习领域争夺地盘。互联网巨头谷歌、Facebook、微软都设立了深度学习开发中心。他们的中国同行百度、阿里巴巴、腾讯、京东和字节跳动也各自建立了自己的深度学习研究中心。DeepMind、商汤科技、旷视科技等几家扎根于深度学习技术的独角兽公司，也在众多竞争者中脱颖而出。2019年以来，行业相关的深度学习研究逐渐从发表论文转向落地项目。比如腾讯AI Lab优化了视频播放，

第四，随着5G技术的逐步普及，深度学习将与云计算一起走进日常生活。由于缺乏计算资源，深度学习是一项普遍难以落地的技术。一台带有 GPU 的超级计算机的成本可能高达 3,411,900 美元（美元）或 500,000 日元（人民币），而且并非所有公司都有资金和人才来充分利用此类设备。然而，随着 5G 技术的普及和云计算的可用性，企业现在可以通过租用直接从云端获取计算资源，而且成本低廉。公司可以将数据上传到云端，并几乎实时地从云端接收计算结果。许多新兴的初创公司正在研究如何利用这一基础设施，并组建了计算机科学家和数据科学家团队，为其他公司提供深度学习算法支持和硬件支持。这使得以前与计算机技术关系不大的行业（例如制造、服务、娱乐，甚至法律行业）中的公司不再需要定义他们的问题并开发他们的解决方案。相反，他们现在可以通过与算法公司合作，从计算机技术行业的专业知识中受益，这样他们就可以通过深度学习获得授权。这使得以前与计算机技术关系不大的行业（例如制造、服务、娱乐，甚至法律行业）中的公司不再需要定义他们的问题并开发他们的解决方案。相反，他们现在可以通过与算法公司合作，从计算机技术行业的专业知识中受益，这样他们就可以通过深度学习获得授权。这使得以前与计算机技术关系不大的行业（例如制造、服务、娱乐，甚至法律行业）中的公司不再需要定义他们的问题并开发他们的解决方案。相反，他们现在可以通过与算法公司合作，从计算机技术行业的专业知识中受益，这样他们就可以通过深度学习获得授权。

总结与讨论

50 多年来，深度学习从原型到成熟，从简单到复杂。学术界和工业界积累了大量的理论和技术经验。现在的发展方向比以往任何时候都更加多元化。一方面是因为很多相应的产品已经进入研发阶段，另一方面是因为计算机科学家正在对深度学习进行更细致的研究。

当然，作为一门综合学科，深度学习除了在图像识别领域的核心发展历程之外，还在语音分析和自然语言处理领域取得了硕果。同时，结合多种神经网络和多媒体格式正迅速成为研究的热点领域。例如，结合图像和语言处理的自动图像字幕是一个具有挑战性的问题。

还应该注意的是，深度学习并不是实现神经网络的唯一方法。一些现阶段应用不那么广泛的网络结构，如自适应共振网络、霍普菲尔德网络和受限玻尔兹曼机，也可能有一天会推动整个行业进一步发展。可以肯定的是，虽然深度学习目前似乎仍笼罩在难以捉摸的复杂和神秘光环中，但在不久的将来，这个科幻概念将成为许多大大小小的公司的基础技术。

审核编辑黄昊宇

打开APP阅读更多精彩内容