LLM2D
最小化最大化者卷土重来
Minimax Strikes Back
作者: Quentin Cohen-Solal, Tristan Cazenave
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2012.10700v2

摘要

arXiv:2012.10700v2 公告类型:替换 摘要:深度强化学习在许多完全信息游戏中达到了超人类的水平。具有零知识学习的最新算法是AlphaZero。我们采用了另一种方法,Athéenan,它使用了不同的、基于Minimax的搜索算法Descent,以及不同的学习目标,并且不使用策略。我们展示了Athéenan在多个游戏中比Polygames(AlphaZero的重新实现)更高效。即使Polygames使用100倍更多的GPU资源(至少对于某些游戏),Athéenan仍然具有竞争力。Athéenan性能更优的一个关键因素是,生成用于训练的状态数据的成本大约低296倍。在相同合理的资源条件下,不使用强化启发式的Athéenan至少比Polygames快7倍,而使用强化启发式时,则比Polygames快超过30倍。