人工智能深度学习的成功

崔灏然 2020-04-02 2983

电子说

1.4w人已加入

描述

在过去的十年中，围绕人工智能的突破，投资和企业家活动的爆炸式增长完全由深度学习驱动，深度学习是一种复杂的统计分析技术，用于发现大量数据中的隐藏模式。1955年创造的一个术语（人工智能）被应用到（或错误地应用到了）深度学习，这是一种训练计算机执行某些任务的方法的更高级版本- 机器学习，这个术语是在1959年创造的。

深度学习的最新成功是由于大量数据（大数据）的可用性增加以及图形处理单元（GPU）的出现，显着增加了用于训练计算机的数据的广度和深度，并减少了所需的时间用于训练深度学习算法。

“大数据”一词最早出现在1997年10月由Michael Cox和David Ellsworth撰写的计算机科学文献中，该文章发表在IEEE第八届可视化会议论文集中，“ 针对核心外可视化的应用程序控制的需求分页 ” 。他们写道：“可视化给计算机系统带来了一个有趣的挑战：数据集通常很大，这给主内存，本地磁盘甚至远程磁盘的容量增加了负担。我们称此为大数据问题。当数据集不能容纳在主存储器（核心）中，或者甚至不能容纳在本地磁盘中时，最常见的解决方案是获取更多资源。”该术语在学术界之外也曾使用过。

SGI的创始人吉姆·克拉克（Jim Clark）于1974年在“计算机图形之父”伊万·萨瑟兰（Ivan Sutherland）的指导下在犹他大学完成了博士学位论文。克拉克后来创立了Netscape Communications，其成功的网络浏览器和1995年的IPO引发了“互联网热潮”。蒂姆·伯纳斯·李（Tim Berners-Lee）在1989年发明了网络，并成功地使全世界数十亿人成为数字数据的消费者和创造者，这为数十亿广泛共享的数字图像（例如，将猫的照片识别为一只猫”）。

2007年，普林斯顿大学的计算机科学家Fei-Fei Li和她的同事开始组装ImageNet，ImageNet是一个带注释的图像的大型数据库，旨在帮助视觉对象识别软件研究。五年后，即2012年10月，由多伦多大学研究人员设计的深度学习人工神经网络在ImageNet大规模视觉识别挑战赛中的错误率仅达到16％，大大超过了25％的错误率。一年前最好的进入，预示着“人工智能”的兴起。

大数据确实很大。 RJT Morris和BJ Truskowski在“ 存储系统的发展 ”一书中说，在1996年，数字存储在存储数据方面比在纸上更具成本效益。在2002年，数字信息存储首次超过了非数字存储。根据马丁·希尔伯特（Martin Hilbert）和普里西拉·洛佩兹（Priscila Lopez）的“世界存储，通信和计算信息的技术能力 ”，在1986年至2007年之间，世界的信息存储能力以每年25％的复合年增长率增长。他们还估计， 1986年，所有存储容量中有99.2％是模拟存储，但在2007年，有94％的存储容量是数字存储，这完全颠倒了角色。

2000年10月，加州大学伯克利分校的Peter Lyman和Hal Varian发表了“ 多少信息？”，这是第一个以计算机存储量来量化世界上每年创建的新信息和原始信息（不计算副本）总量的综合研究。1999年，全世界产生了1.5艾字节的原始数据。2007年3月，John Gantz，David Reinsel和IDC的其他研究人员发布了第一项研究，以估计和预测每年创建和复制的数字数据的数量-2006年为161艾字节，据估计，该数字将增加六倍，达到988艾字节。 2010年，或每18个月翻一番。

信息爆炸（根据牛津英语词典的说法，该术语在1941年首次使用）已经变成了大型数字数据爆炸。但是，可用数据的数量只是使深度学习成功的两个催化剂之一。另一个是GPU。

虽然深度学习算法的开发及其实际应用在1980年代和1990年代稳步发展，但它们受到计算机能力不足的限制。1986年10月，David Rumelhart，Geoffrey Hinton和Ronald Williams出版了“ 通过反向传播错误学习表示法 ”，其中描述了“一种新的学习过程，即反向传播，用于神经元样单元网络，”是一个概念性突破。在深度学习的发展中。三年后，Yann LeCun和AT＆T贝尔实验室的其他研究人员成功地应用了反向传播算法到多层神经网络，识别手写的邮政编码。但是鉴于当时的硬件限制，培训网络大约花了3天的时间（与以前的工作相比有很大的改进）。

大数据诞生的计算机图形学得以拯救。到1990年代，实时3D图形在街机，计算机和游戏机游戏中变得越来越普遍，导致对硬件加速3D图形的需求增加。索尼在1994年推出家用视频游戏机PS1时，首先将GPU一词称为 “几何处理单元”。

视频游戏渲染需要快速并行执行许多操作。图形卡具有较高的并行度和较高的内存带宽，但相对于传统CPU而言，其时钟速度较低且分支能力较低。碰巧，在人工神经网络上运行的深度学习算法需要类似的特性-并行性，高内存带宽，无分支。

到2000年代末，许多研究人员已经证明了GPU在深度学习（特别是对于人工神经网络训练）中的实用性。由新的编程语言（如NVIDIA的CUDA）支持的通用GPU已应用于各种深度学习任务。此类应用程序中最明显的是上述2012年ImageNet挑战赛的冠军。

2020年3月18日，计算机技术协会（ACM）将Patrick M.（Pat）Hanrahan和Edwin E.（Ed）Catmull提名为2019 ACM AM图灵奖的获得者，以表彰其对3D计算机图形学的基本贡献，以及这些技术对电影制作和其他应用中的计算机生成图像（CGI）产生了革命性的影响。

根据ACM新闻稿，今天，“ 3-D计算机动画电影代表了在价值1380亿美元的全球电影行业中广受欢迎的类型。3-D计算机图像对于蓬勃发展的视频游戏行业以及新兴的虚拟现实和增强现实领域也至关重要。Catmull和Hanrahan做出了开创性的技术贡献，这些贡献仍然是当今CGI图像开发方式不可或缺的部分。此外，他们对编程图形处理单元（GPU）的见解不仅对计算机图形学产生了影响，还影响了包括数据中心管理和人工智能在内的各个领域。”

像吉姆·克拉克（Jim Clark）一样，卡特姆（Catmull）是伊万·萨瑟兰（Ivan Sutherland）的学生，并于1974年获得犹他大学的博士学位。正如罗伯特·里夫林（Robert Rivlin）在1986年的著作《算法图像：计算机时代的图形视觉》中所写的那样，“现代计算机中几乎每个有影响力的人图形社区要么通过了犹他大学，要么以某种方式与之接触。”

在2010年对 Pat Hanrahan的采访中，Catmull描述了U U工作环境：

“戴夫·埃文斯（Dave Evans）是该系主任，伊万（Ivan）在教书，但他们的公司埃文斯（Evans）和萨瑟兰（Sutherland）花费了所有多余的时间。这些学生几乎是独立的，这是我真正的肯定，因为学生必须自己做一些事情。我们期望创造原创作品。我们处于前沿，我们的工作是扩展它。他们基本上说：“您可以每隔一段时间与我们联系，我们将与您联系，但我们将关闭这家公司。”

我认为效果很好！它建立了相互支持，共同工作的环境。”

在同一讨论的稍后部分，Hanrahan说：

“当我第一次对研究生院的图形感兴趣时，我听说过要制作完整的计算机生成图片的要求。当时，我对人工智能非常感兴趣，因为人工智能具有图灵测试和模仿思维的想法。我认为制作计算机生成图片的想法是对人的思维进行建模的先驱，或者至少与之类似，因为您必须对整个虚拟世界进行建模，并且必须在该世界中拥有人-如果虚拟世界和其中的人们看起来并不聪明，那么该世界将无法通过图灵测试，因此看起来似乎不太合理。

我想我很聪明，以为我们一生中实际上无法建立人类智力模型。因此，我对图形感兴趣的原因之一是我认为它具有良好的长期职业发展潜力。”

打开APP阅读更多精彩内容