研究人员开源RAD以改进及强化智能学习算法

独爱72H 2020-05-11 1924

人工智能

643人已加入

描述

（文章来源：教育新闻网）
加州大学伯克利分校的一组研究人员本周开放了使用增强数据进行强化学习(RAD)的资源。在随附的论文中，作者说此模块可以改善任何现有的强化学习算法，并且与Google AI的PlaNet相比，RAD可以实现更好的计算和数据效率，以及UC Berkeley和DeepMind最近发布的尖端算法(如DeepMind的Dreamer和SLAC)。

研究人员说，RAD在15个DeepMind控制环境中的通用基准上取得了最先进的结果，并在性能和数据效率方面达到或超过了每个基准。它部分地通过为视觉观察应用数据增强来做到这一点。关于RAD的论文的合著者包括Michael“ Misha” Laskin，Kimin Lee和Berkeley AI Research联合主任以及协变创始人Pieter Abbeel。

RAD星期四在预印本仓库arXiv上发布。数据增强对于卷积神经网络(CNN)的发展非常重要，以应对诸如Go这类游戏中的机器人抓取和实现人类水平性能的挑战。

“这是第一次，我们证明，仅在DeepMind控制套件和OpenAI ProcGen基准测试上，仅数据增强一项就可以显着提高从像素操作的RL方法的数据效率和通用性，而无需对底层RL算法进行任何更改，论文读到。“通过使用同一数据点的多个扩充视图作为输入，CNN被迫学习其内部表示形式中的一致性。这样就产生了可视化表示，可以提高泛化性，数据效率和转移学习。”

数据增强技术可在不收集新数据的情况下增加训练数据集的多样性。作者指出：“我们发现，仅凭数据的多样性就可以使代理商专注于来自高维观测的有意义的信息，而无需改变强化学习方法。”对于强化学习的机器学习子来说，这是繁忙的一周。

本周早些时候，纽约大学的研究人员发布了关于arXiv的工作，该工作应用了数据增强功能，他们说在DeepMind控制套件上也能达到最新的结果。在本周的全数字国际学习表示会议(ICLR)上，谷歌AI研究人员介绍了用于测量强化学习算法可靠性的方法，华为AI研究人员介绍了Adversarial AutoAugment以改进数据增强策略。

Abbeel还与ICLR合作撰写了许多强化算法论文，其中包括HiPPO，它可以一次训练多个级别的强化学习算法，还涉及关于强化学习和策略优化的论文，这些论文涉及数据增强。在一系列不同的发展中，本周早些时候，Salesforce发布了《人工智能经济学家》，这是该公司声称能够创建最佳税收政策的强化学习。
（责任编辑：fqj）

打开APP阅读更多精彩内容