谷歌工程师浅谈Bengio深度学习论文的重要性

人工智能

635人已加入

描述

  《理解深度学习需要重新思考泛化》论文引起了人们的深思,也有很多人表示不解。也曾在Quora上讨论过。Google Brain工程师Eric Jang认为深度学习的工作机制,能促进深度学习在生活周围的应用,Zhang et al.2016可能会成为一个重要的风向标。

  2017年,很多机器学习研究人员都在试图解决一个问题:深度神经网络是如何运作的?为什么它们能够很好地解决实际问题?

  即使人们不太关心理论分析和代数,但理解深度学习的工作机制,能够帮助我们促进深度学习在现实生活中的应用。

  论文《理解深度学习需要重新思考泛化》(Understanding deep learning requires rethinking generalization)展现了神经网络的一些有趣特征,特别需要指出的一点是,神经网络有足够的能力来记忆随机输入的数据。在SGD优化设置中,训练集误差完全可以缩小到ImageNet大小的数据集。

  这与以下经典叙述背道而驰:“深度学习奇迹般地发现了低级、中级和高级特征,就像哺乳动物大脑V1系统在学习压缩数据时展现出的行为一样。”

  2012-2015年间,很多研究人员使用“归纳偏差”来解释深度网络如何减少测试误差,暗示了某种形式的泛化。

  但是,如果一个深度网络能够记忆随机数据,这表明由于归纳偏差也与记忆兼容,并不能完全解释泛化能力,(例如卷积/池化架构,Dropout、batchnorm等正则化使用)。

  这篇论文备受瞩目的部分原因在于,它在ICLR评论中获得了”Perfect score”和ICLR2017最佳论文奖。这引发了人们的热议,所以有一点反馈循环。我认为这是一篇很好的论文,因为这篇论文提出了一个没人问过的问题,并提供了强有力的实验证据来证明一些非常有趣的结果。

  然而,我认为深度学习界达成一致来判定一篇论文是否重要,还需要1-2年。尤其是对于那些非分析性、通过实证研究得出的结论。

  Tapabrata Ghosh指出,一些研究人员认为,尽管深度网络有记忆功能,这可能并不是深度网络在实践中做的事。这是因为“记住”有语义意义的数据集所需要的时间比记住随机数据需要的时间更短,说明深度网络可以利用训练集中已有的语义规律。

  我认为Zhang et al.2016在理解深度网络运作方式上可能会成为一个重要的风向标,但并没有解决深度网络泛化的问题。也许马上就会有人挑战这篇论文的观点。这就是实验科学的本质。

  简而言之,这篇论文被认为非常重要,是因为展现了深度学习以记忆的方式学习随机数据库。然后提出了深度网络如何学习非随机数据集的问题。

  以下是我对于泛化问题的意见:

  具有良好优化目标的高容量参数模型像海绵一样吸收数据。我认为深度网络优化目标非常“懒惰“但功能强大:在提供正确模型偏差并与输入数据兼容的情况下,深度网络能够具有语义意义的特征层次结构。但如果不方便优化,深度学习网络将会以只记忆数据的方式进行优化。

  现在我们缺少的是控制记忆程度vs泛化程度的方法,还有无法使用像权重正则化和dropout这样强力的工具。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分