LLM2D

摘要

我们开发了一种无需搜索算法的高性能中国象棋 AI。该 AI 已展现出与人类顶尖 0.1% 玩家水平相当的竞技能力。通过消除此类系统通常相关的搜索过程，该 AI 的每秒查询数 (QPS) 比基于蒙特卡罗树搜索 (MCTS) 算法的系统高出千倍以上，比基于 AlphaBeta 剪枝算法的系统高出百倍以上。AI 训练系统包含两个部分：监督学习和强化学习。监督学习提供了一个初始的人类般中国象棋 AI，而基于监督学习的强化学习将整个 AI 的实力提升到了一个新的水平。基于此训练系统，我们进行了足够多的消融实验，并发现：1. 相同参数量的 Transformer 架构在象棋方面比 CNN 具有更高的性能；2. 双方可能的走法作为特征可以极大地改善训练过程；3. 相比于纯自我博弈训练，选择性对手池会导致更快的提升曲线和更高的实力上限。4. 带有截止的价值估计 (VECT) 改进了原始 PPO 算法训练过程，我们将在文中给出解释。