LLM2D

摘要

arXiv:2504.07757v1 宣布类型: 新论文摘要：2017年，AlphaZero通过数百万次的自我对弈（自博弈），在没有人类知识的情况下学会了国际象棋和其他游戏，其计算预算达数千万美元。它使用了蒙特卡洛树搜索（MCTS）算法的一种变体，即PUCT算法。本文引入了一种名为搜索轻蔑的新颖混合MCTS算法变体，它从根本上改变了自博弈中生成的位置分布，更倾向于更具挑战性的位置。此外，搜索轻蔑已被证明能显著增强在走子棋中引擎的力量（一方从一开始就处于不利位置）。更为重要的是，它为用数百万次训练游戏（成本数百万美元）而不是AlphaZero所需的数千万次训练游戏（成本数千万美元）以更高的计算效率训练基于自博弈的引擎打开了可能性。这意味着，即使在预算有限的计算、成本或时间条件下，也可能从标准消费者GPU开始训练此类程序。