人工智能学会战略性遗忘：三种方法

KIyT_gh_211d74f 2018-06-14 3564

电子说

1.2w人已加入

描述

人的遗忘是策略式的，而机器的遗忘是计算式的。

人工智能越来越频繁地出现在人们的生活中，而其技术上的重大进步仍然不曾明朗。本文作者Natalie Fratto在“Machine Un-Learning: Why Forgetting Might Be the Key to AI”一文中讲述了实现人工智能战略性遗忘的三个方法。

让我们先直面那些事情一团糟的情况。你不记得自己把钥匙放在了哪里，你不记得刚刚在杂货店遇到的同事的名字因而只能磕磕绊绊地说着话，这都令你异常沮丧。然而，遗忘是人类得以生存的核心。事实上，我们必须对自己有能力做到这一点感到幸运。

对于人类来说，遗忘不仅仅意味着记忆的遗失，也意味着这也是一个帮助大脑吸收新知识并有效做出决策的积极过程。

现在，数据科学家正在应用神经科学原理改进机器学习技术，他们相信人类的大脑是完全揭开人工智能面纱的关键。

根据最近发表在《神经元》（Neuron）杂志上的一篇论文所言，人们的大脑充当着信息过滤器的角色。它能输入一大堆乱七八糟的数据，再过滤出有用的数据，然后清除所有无关的细节，从而使人们能够成功讲述一个故事或者是做出决定。这种删除未使用信息，以便为接受新信息腾出空间的行为，就如同清理计算机上的磁盘空间。用神经生物学术语表示，当神经元之间的连接随着时间的推移变得减弱甚至是消失时，遗忘就会发生，而随着新神经元的出现，它们会重新连接海马体的回路并覆盖现有记忆。

对于人类来说，遗忘的发生带来两个好处：

它通过减少过时信息对人们产生的影响来提高决策灵活性。

它能够预防人们过度沉浸于某些过去的特定事件，提高适应能力。

人们为了有效适应发展，必须具备战略性遗忘的能力。

但是电脑又能如何呢？

这即是人工智能所面临的最大挑战之一，计算机的遗忘逻辑与人类的情况不同。深度神经网络是一系列机器学习任务中完成度最高的技术，但是它不会像人们那样去遗忘。

举个简单的例子，如果你要教一个会说英语的孩子学习西班牙语，那么他会将学习英语过程中的相关经验应用到学习西班牙语的过程中，这有可能是名词、动词时态和句子结构等，同时忽略掉那些不相关的部分，比如口音、晦涩词语和语调等。孩子们可以基于战略性遗忘策略不断地学习与重建。

神经网络的逻辑与此不同，如果一个神经网络被训练学习英语，那么其会通过调用参数解决英语问题。如果你想教它学习西班牙语，那么神经网络对于西班牙语的认知就会覆盖掉之前为英语学习所储备的知识，有效清空所有内容并从零开始。我们将其称为“灾难性遗忘”，“这是神经网络所面临的基本局限之一。”

攻克这一局限是一个全新领域，但是科学家已经在关于如何克服这种局限性所涉及的潜在理论的探索上取得了长足的进步。

人工智能学会战略性遗忘：三种方法

一. 长短期记忆网络（LSTM，Long Short Term Memory Networks）

长短期记忆网络是一种递归式神经网络，它通过特定的学习机制决定在什么时候记住哪些信息，更新哪些信息，注意哪些信息。

用电影类比来解释长短期记忆网络工作的逻辑十分简单易懂。想象这么一种场景，一台电脑通过分析之前的场景来预测电影接下来会发生什么。在某个场景中，一个女人拿着一把刀，电脑会猜她是厨师还是杀人犯？在另一个场景中，这个女人在一个金色拱门下面同一个男人一起吃着寿司，他们是在日本还是在麦当劳？或者是能确定他们在圣路易斯？

这的确非常难以预测。

长短期记忆网络则在这一过程中帮助神经网络实现1）遗忘/记忆，2）保存，3）聚焦。

1. 遗忘/记忆：“例如，在一个场景结束后，模型应该忘记当前的位置信息、时间信息，并重置任何有关场景的特定信息。但是，如果某个角色在某个场景中死去了，那么它需要记住这个人已经不再会出现。因此，我们希望模型能够学习一种单独的遗忘/记忆机制：当新的信息出现时，它需要知道哪些信息需要保留而哪些信息需要丢弃。”

2. 保存：当模型看到一个新图像时，它需要了解这个图像的信息是否值得使用和保存。如果某个场景中一个女人走过了一个广告牌，是记住这个广告牌，还是仅仅将其视为冗余？

3. 聚集：模型需要记住电影中的这位女性是一个母亲，因为之后的场景会出现她孩子的画面。但是如果在某个场景中女人并没有出现，那么这一信息就显得不甚重要，所以在这个场景中模型不需要关注这一信息。同样，并非所有存储在神经网络长期记忆中的东西每一次都会发挥直接相关的作用。因此，长短期记忆网络需要帮助确定模型在某个特定时间需要关注哪些部分，同时将所有信息妥善保管。

二弹性权重固化（EWC，Elastic Weight Consolidation）

弹性权重固化是谷歌旗下DeepMind的研究人员于2017年3月创建的一种算法，该算法模拟了一种叫做“突触整合”的神经科学过程。在突触整合过程中，人们的大脑会进行任务评估，计算众多用于执行任务的神经元的重要性，并确认一些神经元所扮演的重要角色使其对正确执行任务发挥更加重要的作用。这些关键性神经元被标记上重要程度并使其在后续任务中被覆盖的几率减小。在神经网络中也有多个如神经元的连接用于执行任务。弹性权重固化将某些连接编码标注上关键性，从而保护其不被过度写入遗忘/记忆程序。

三. 瓶颈理论（Bottleneck Theory）

2017年秋天，在人工智能社区的一次演讲中，来自耶路撒冷希伯来大学的计算机科学家与神经学家纳夫塔利·提斯比讲述了其称之为“瓶颈理论”的观点。“其思想是，一个网络会排除掉那些无关重要的嘈杂的输入数据，这就如同通过瓶颈向其中压缩信息，只保留与一般概念最相关的特性。”

正如提斯比所解释的那样，神经网络在学习过程中需要经历两个阶段，拟合与压缩。在拟合过程中，网络对其训练数据进行标记。而在更为复杂的压缩过程中，其“将基于标记的数据信息只追踪那些具备巨大特征的信息。”而这一过程对于之后的概化过程极为重要。在此过程中，压缩是一种策略上的遗忘方式，人工智能研究人员可以在未来用其构建更强大的神经网络和框架。

正如提斯比所言，“学习过程中最重要的环节是遗忘。”

人类的大脑可能蕴藏着创造强大人工智能的图解，而如今科学家们仍然停留在如何解读这些可能的层面。

打开APP阅读更多精彩内容