Q-learning算法是一种经典的强化学习算法,更新策略由于保守和过估计的原因,存在收敛速度慢的问题。 SpeedyQ-learning算法和 Double Q-learning算法是 Q-learning算法的两个变种,分别用于解决 Q-learning算法收敛速度慢和过估计的问題。文中基于 Speedy Q-learning算法Q值的更新规则和蒙特卡洛强化学习的更新策略,通过理论分析及数学证明提岀了其等价形式,从该等价形式可以看到, Speedy Q-learning算法由于将当前Q值的估计函数作为历史Q值的估计,虽然整体上提升了智能体的收敛速度,但是同样存在过估计问题,使得算法在迭代初期的收敛速度较慢。针对该问题,文中基于 Double cearning算法中双估计器可以改善智能体收敛速度的特性,提岀了一种改进算法 Double speedy Q-learning。其通过双估计器,分离最优动作和最大Q值的选择,改善了 Speedy Q-learning算法在迭代初期的学习策略,提升了 Speedy Q-learning算法的整体收敛速度。在不同规模的格子世界中进行实验,分别采用线性学习率和多项式学习率,来对比 Q-learning算法及其改进算法在迭代初期的收敛速度和整体收敛速度。实验结果表明,υσ uble speedy Q-learning算法在迭代初期的收敛速度快于 Speedy aearning算法,且其整体收敛速度明显快于对比算法,其实际泙均奖励值和期望奖励值之间的差值最小。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !