×

基于支持样本的快速增强学习算法

消耗积分:2 | 格式:rar | 大小:224 | 2010-01-22

张勇

分享资料个

针对确定性马尔克夫决策过程,本文提出了一种基于支持样本的快速增强学习算法。
文章首先把学习问题形式化为一个确定性的马尔可夫决策过程,并对问题空间中每个状态的总回报值进行估计,根据总回报估计值与累积总回报估计值的大小关系,提出了支持样本的概念,即在大量的训练样本中,提取出值得我们信赖的那些样本;然后建立状态空间与动作空间之间的对应关系,用得到的支持样本进行最小二乘逼近,得到了快速有效的策略函数;最后,通过仿真实验,证明了方法的有效性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !