LLM2D
学习在没有知识的情况下玩二人完美信息游戏
Learning to Play Two-Player Perfect-Information Games without Knowledge
作者: Quentin Cohen-Solal
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2008.01188v5

摘要

arXiv:2008.01188v5 公告类型: 替换 摘要: 在本文中,提出了一些通过强化学习学习游戏状态评估函数的技术。首先是一种树引导(树学习)的通用化:它适应了基于非线性函数的无先验知识的强化学习环境。通过这种方法,在强化学习过程中不会丢失任何信息。其次是一种改进的极小极大搜索,其深度不受限制,将最佳行动序列扩展到终端状态。这种改进的搜索方式旨在在学习过程中使用。第三种是用强化学习启发式方法替代经典的獲勝損失(+1/-1)。我们研究了特定的强化学习启发式方法,如:快速获胜和缓慢失败;评分;移动或存在。第四种是新的行动选取分布。进行的实验表明,这些技术提高了游戏水平。最后,我们将这些不同的技术应用于设计自博弈强化学习的Hex游戏(大小为11和13)程序选手,超越了无先验知识的Mohex 3HNN的水平。