MIT研发“神经架构搜索”算法,将AI优化的AI设计过程加速240倍或更多

IEEE电气电子工程师 2019-04-15 3378

描述

自2017年以来，AI研究人员一直在使用AI神经网络来帮助设计更好、更快的AI神经网络。迄今为止，应用AI来实现更好的AI很多程度上是一种学术追求——主要是因为这种方法需要数万个GPU小时。

然而，下个月，麻省理工学院（MIT）的一个研究小组将展示一种所谓的“ 神经架构搜索”算法，该算法可以将AI优化的AI设计过程加速240倍或更多。这将使AI更快、更准确，在实际应用中达到可应用于图像识别算法和其他相关应用的程度。

MIT电子工程和计算机科学助理教授Song Han表示：“在模型大小、推理延迟、准确性和模型容量之间存在各种各样的权衡。”他补充说：“（这些）加起来就是一个巨大的设计空间。以前，人们设计了基于启发法的神经网络。神经架构搜索试图将这种劳动密集型的、基于启发法的探索转变为基于学习的、基于AI的设计空间探索。就像AI可以学习下围棋一样，AI也可以学习如何设计一个神经网络。”

就像在围棋和国际象棋中获胜的AI程序已经向这些游戏的大师们教授新策略一样，AI优化的AI设计结果为AI神经网络设计提供了新的方法。

MIT的新算法加速了其开发的AI神经网络的类型为卷积神经网络（CNN）。CNN通常是用于图像识别程序的首选神经网络。除了图像和视频领域的应用外，CNN在自然语言处理和药物发现等领域也有所应用。

MIT的Han指出，一旦他们的算法建立起最优的CNN，所得到的系统很可能将图像分类的速度提高到其他神经架构搜索构建的AI的1.8倍。

Han说，其团队能够以如此惊人的速度精确定位最优的CNN设计，得益于三个重要的想法。

首先，他们减少了运行神经架构搜索的GPU的内存负载。一个标准的神经结构搜索可以同时检查网络中神经层之间所有可能的连接。相反，Han的团队每次只在GPU的内存中保存一条路径。这个技巧可以在仅使用十分之一内存空间的情况下对参数空间进行完整的搜索，从而使他们的搜索覆盖更多的网络配置，而不会耗尽芯片上的空间。

他们的第二个锦囊妙计是从已被丢弃的神经网络搜索中删除整个路径，这显著加快了神经网络搜索的速度。（通常，神经结构搜索只丢弃单个“神经元”，删除掉所有次优的神经网络连接。）

第三个创新之处涉及使神经网络搜索意识到AI系统可能正在运行的每种类型硬件的延迟时间——无论是直接的CPU还是用于移动平台的GPU加速系统。

Han说，令人惊讶的是，关于一些类型的图像识别神经网络的传统观点是错误的。从某种意义上说，AI网络设计师在设计主要运行在GPU系统上的网络时，他们的想法仍然停留在CPU时代。

CNN在其图像识别算法中使用过滤器，这些过滤器是由3×3、5×5或7×7像素组成的正方形网格。传统上，很少使用7×7大小的过滤器，因为人们认为运行多层3×3过滤器比运行单个7×7过滤器更快。

然而，Han说，AI优化的AI使用了相当数量的7×7过滤器——Han认为，这是当今大多数AI计算中GPU占主导地位的一个原因。

“我们发现，在GPU上运行多层7×7过滤器更容易，因为GPU具有很大的并行性，”Han说。“而且调用一个大型内核调用比调用几个小型内核调用更有效。”

在谈到他们团队的算法时，Han说:“它为人类工程师设计未来的神经网络提供了良好的反馈。”然而，这并不意味着AI能够构建其自身的更强大版本。（那些担心会发生AI大灾难的人，可能无法从目前的研究中找到对其观点有利的证据。）

打开APP阅读更多精彩内容