LLM2D
无搜索的中国象棋人工智能精通之道
Mastering Chinese Chess AI (Xiangqi) Without Search
作者: Yu Chen, Juntong Lin, Zhichao Shu
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04865v1

摘要

我们开发了一种无需搜索算法的高性能中国象棋 AI。该 AI 已展现出与人类顶尖 0.1% 玩家水平相当的竞技能力。通过消除此类系统通常相关的搜索过程,该 AI 的每秒查询数 (QPS) 比基于蒙特卡罗树搜索 (MCTS) 算法的系统高出千倍以上,比基于 AlphaBeta 剪枝算法的系统高出百倍以上。AI 训练系统包含两个部分:监督学习和强化学习。监督学习提供了一个初始的人类般中国象棋 AI,而基于监督学习的强化学习将整个 AI 的实力提升到了一个新的水平。基于此训练系统,我们进行了足够多的消融实验,并发现:1. 相同参数量的 Transformer 架构在象棋方面比 CNN 具有更高的性能;2. 双方可能的走法作为特征可以极大地改善训练过程;3. 相比于纯自我博弈训练,选择性对手池会导致更快的提升曲线和更高的实力上限。4. 带有截止的价值估计 (VECT) 改进了原始 PPO 算法训练过程,我们将在文中给出解释。