×

基于强化学习的飞行自动驾驶仪设计

消耗积分:0 | 格式:pdf | 大小:821KB | 2015-08-12

vvg

分享资料个

针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分割为若干组,在不同的飞行状态时,调取不同组中的动作;其次,构建了BP神经网络,通过飞行过程中的立即奖赏,更新网络的值函数映射;最后,通过数字仿真验证了强化学习自动驾驶仪的性能

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !