RoboCup 仿真比赛提供了一个完全分布式控制、实时异步多智能体的环境,通过这个平台,可以测试各种理论、算法和 A- gent 体系结构,在实时异步、有噪声的对抗环境下,研究多智能体之间的合作和对抗问题。仿真比赛在一个标准的计算机环境内进行,采用 Client/Server 方式,参赛队伍编写各自的客户端程序,模拟实际足球队员进行比赛。在 RoboCup 足球机器人仿真中使用强化学习算法必须克服几个问题,如:多维连续的状态空间、噪声的影响、多智能体以及需要实时的动作。在过去的一段时间内,机器学习已经被应用在 RoboCup 的许多的子任务中。本文提出了将 SARSA 算法应用在多智能体(4V3)的带球的任务中,经过一段时间的学习之后, 取得了理想的效果。
强化学习也叫激励学习、评价学习,它是智能体不断的试探和学习的过程,通过这种试探来使系统行为从环境中获得的累积奖赏值最大。其基本的模型如图 1 所示。在强化学习中,设计算法的原则就是把外界环境转化为最大奖励量的方式的动作。智能体并没有被告诉要做什么或者采取哪个动作,而是通过看哪个动作得到了最多的奖励来自己发现。智能体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。在强化学习中,环境处于状态集合 S 中的某一状态 s,Agent 选择动作集合 A 中的一个动作 a, 动作 a 作用于环境后会接收到一个即时奖赏 r,若 r 大于 0,则智能体以后产生这个动作的趋势就会加强;反之,智能体产生这个动作的趋势就会减弱。在学习系统的控制行为与环境反馈的状态及评价的反复的相互作用中,以学习的方式不断修改从状态到动作的映射策略,以达到优化系统性能目的。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !