如何深度强化学习人工智能和深度学习的进阶

8gVR_D1Net08 2018-03-03 3961

电子说

1.2w人已加入

描述

传统上，强化学习在人工智能领域占据着一个合适的地位。但强化学习在过去几年已开始在很多人工智能计划中发挥更大的作用。其最佳的应用点在于计算艾真体(agent)在环境上情境化的决策场景中要采取的最佳行动。

强化学习非常适合自主决策，因为单靠监督学习或无监督学习技术无法完成任务。

强化学习使用试错法将算法奖励函数最大化，它非常适用于IT运营管理、能源、医疗保健、商业、金融、交通和金融领域的很多自适应控制和艾真体自动化应用。它用来训练人工智能，它为传统的重点领域提供支持——机器人技术、游戏和模拟——以及边缘分析、自然语言处理、机器翻译、计算机视觉和数字助理等新一代人工智能解决方案。

强化学习也是物联网中自主边缘应用程序开发的基础。很多边缘应用程序的开发(工业、交通、医疗和消费应用)涉及对注入了人工智能的机器人技术的构建，这些技术可以在动态环境条件下以不同程度的情境自主性进行操作。

强化学习如何工作

在这样的应用领域中，边缘设备的人工智能大脑必须依赖强化学习，由于在这里缺少预先存在的“真实值(ground truth)”训练数据集，他们试图将累计奖励函数最大化，例如根据规范中包含的一组标准组装一个生产组件。这与其它类型的人工智能的学习方式形成对比，后者要么是(像监督学习一样)对相对于真实值数据的算法上的损失函数进行最小化，要么(像无监督学习一样)对数据点之间的距离函数进行最小化。

但是，这些人工智能学习方法不一定是孤岛。最有趣的人工智能趋势之一是强化学习与更高级的应用程序中的监督学习和无监督学习的融合。人工智能开发人员将这些方法融入到仅凭单一的学习方法不足为用的应用程序中。

例如，监督学习本身在没有标记的训练数据的情况下是无用的，在自动驾驶这样的应用中往往缺乏标记的训练数据，在这里，每个瞬时的环境情况本质上都是未标记且独特的。同样，无监督学习(使用聚类分析来检测传感器馈源和其它复杂的未标记数据中的模式)并非用来发现智能终端在真实世界的决策场景中应采取的最佳操作。

什么是深度强化学习

然后是深层强化学习，这是一种领先的技术，在这种技术中，自治的艾真体(autonomous agent)使用强化学习的试错算法和累计奖励函数来加速神经网络设计。这些设计为很多依靠监督和/或无监督学习的人工智能应用程序提供支持。

深度强化学习是人工智能开发和培训管道自动化的核心重点领域。它涉及对强化学习驱动的艾真体的使用，以快速探索与无数体系结构、节点类型、连接、超参数设置相关的性能权衡，以及对深度学习、机器学习和其他人工智能模型设计人员可用的其它选择。

例如，研究人员正在使用深度强化学习来快速确定哪一种深度学习卷积神经网络(CNN)架构可能用于解决特征工程、计算机视觉和图像分类中的各种难题。人工智能工具可能会使用从深度强化学习获得的结果来自动生成最佳CNN，使用TensorFlow、MXNet或PyTorch等深度学习开发工具来完成该任务。

在这方面，看到强化学习发展和培训的开放框架的出现是鼓舞人心的。你在探索深度强化学习时可能需要探索下面这些强化学习框架，这些框架利用、扩展并与TensorFlow和其它深度学习和机器学习建模工具接合，这些工具已得到广泛采用：

强化学习

人工智能开发人员需要的强化学习技能

展望未来，人工智能开发人员将需要沉浸在这些框架和其它框架中实施的各种强化学习算法中。你还需要加深对多艾真体强化学习架构的理解，这其中有很多架构大量利用老牌的博弈论研究机构。你还要熟悉深度强化学习，以此来发现计算机视觉应用中与名为“模糊”的攻击方法相关的安全漏洞。

打开APP阅读更多精彩内容

如何深度强化学习 人工智能和深度学习的进阶

描述

如何深度强化学习人工智能和深度学习的进阶