摘要
arXiv:2008.01188v4 公告类型:替换
摘要:本文提出了几种通过强化学习学习游戏状态评估函数的技术。首先是树启动的泛化(树学习)的扩展:它适应了无需基于非线性函数的知识的强化学习环境。通过这种方法,在强化学习过程中不会丢失任何信息。其次是对最小最大算法进行修改,使其深度无界,将最佳行动序列延伸至终端状态。这种修改后的搜索旨在在学习过程中使用。第三是用强化学习启发式算法替换经典的游戏收益(+1 / -1)。我们研究了一些特定的强化学习启发式算法,如:快速胜利和缓慢失败;得分;移动性或存在感。第四是新的动作选择分布。进行的实验表明,这些技术提高了游戏水平。最后,我们将这些不同的技术应用于设计 Hex 游戏(大小为 11 和 13)的程序玩家,并通过自我对弈学习超越 Mohex 3HNN 的水平。