LLM2D
搜索-轻视:一种具有更好计算效率的 ALPHAZero 类引擎混合 MCTS 算法
Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency
作者: Ameya Joshi
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07757v1

摘要

arXiv:2504.07757v1 宣布类型: 新论文 摘要:2017年,AlphaZero通过数百万次的自我对弈(自博弈),在没有人类知识的情况下学会了国际象棋和其他游戏,其计算预算达数千万美元。它使用了蒙特卡洛树搜索(MCTS)算法的一种变体,即PUCT算法。本文引入了一种名为搜索轻蔑的新颖混合MCTS算法变体,它从根本上改变了自博弈中生成的位置分布,更倾向于更具挑战性的位置。此外,搜索轻蔑已被证明能显著增强在走子棋中引擎的力量(一方从一开始就处于不利位置)。更为重要的是,它为用数百万次训练游戏(成本数百万美元)而不是AlphaZero所需的数千万次训练游戏(成本数千万美元)以更高的计算效率训练基于自博弈的引擎打开了可能性。这意味着,即使在预算有限的计算、成本或时间条件下,也可能从标准消费者GPU开始训练此类程序。