摘要
arXiv:2008.01188v5 公告类型: 替换
摘要: 在本文中,提出了一些通过强化学习学习游戏状态评估函数的技术。首先是一种树引导(树学习)的通用化:它适应了基于非线性函数的无先验知识的强化学习环境。通过这种方法,在强化学习过程中不会丢失任何信息。其次是一种改进的极小极大搜索,其深度不受限制,将最佳行动序列扩展到终端状态。这种改进的搜索方式旨在在学习过程中使用。第三种是用强化学习启发式方法替代经典的獲勝損失(+1/-1)。我们研究了特定的强化学习启发式方法,如:快速获胜和缓慢失败;评分;移动或存在。第四种是新的行动选取分布。进行的实验表明,这些技术提高了游戏水平。最后,我们将这些不同的技术应用于设计自博弈强化学习的Hex游戏(大小为11和13)程序选手,超越了无先验知识的Mohex 3HNN的水平。