麻将作为典型的非完备信息博弈游戏主要通过传统 Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合 Expectimax搜索与 Double DQN强化学习算法的非完备信息博弈算法。在 Expectimax搜索树扩展过程中,采用 Double DQN输出的估值设计估值函数并在限定搜索层数內获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。在 Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用巸 xpectimax搜索算法得到最优动作以改进探索策略。实验结果表明,与 Expectimax搜索算法、 Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !