LLM2D

摘要

arXiv:2008.01188v5 公告类型: 替换摘要: 在本文中，提出了一些通过强化学习学习游戏状态评估函数的技术。首先是一种树引导（树学习）的通用化：它适应了基于非线性函数的无先验知识的强化学习环境。通过这种方法，在强化学习过程中不会丢失任何信息。其次是一种改进的极小极大搜索，其深度不受限制，将最佳行动序列扩展到终端状态。这种改进的搜索方式旨在在学习过程中使用。第三种是用强化学习启发式方法替代经典的獲勝損失（+1/-1）。我们研究了特定的强化学习启发式方法，如：快速获胜和缓慢失败；评分；移动或存在。第四种是新的行动选取分布。进行的实验表明，这些技术提高了游戏水平。最后，我们将这些不同的技术应用于设计自博弈强化学习的Hex游戏（大小为11和13）程序选手，超越了无先验知识的Mohex 3HNN的水平。