LLM2D

摘要

arXiv:2008.01188v4 公告类型：替换摘要：本文提出了几种通过强化学习学习游戏状态评估函数的技术。首先是树启动的泛化（树学习）的扩展：它适应了无需基于非线性函数的知识的强化学习环境。通过这种方法，在强化学习过程中不会丢失任何信息。其次是对最小最大算法进行修改，使其深度无界，将最佳行动序列延伸至终端状态。这种修改后的搜索旨在在学习过程中使用。第三是用强化学习启发式算法替换经典的游戏收益（+1 / -1）。我们研究了一些特定的强化学习启发式算法，如：快速胜利和缓慢失败；得分；移动性或存在感。第四是新的动作选择分布。进行的实验表明，这些技术提高了游戏水平。最后，我们将这些不同的技术应用于设计 Hex 游戏（大小为 11 和 13）的程序玩家，并通过自我对弈学习超越 Mohex 3HNN 的水平。