摘要
arXiv:2412.12119v2 公告类型:替换
摘要:提高大型语言模型(LLMs)的规划和推理能力是解锁其在复杂和影响力强的领域中可靠执行潜力的关键步骤。在本文中,我们旨在通过棋盘游戏(国际象棋、费舍尔随机/国际象棋960、四连珠和六角棋)来展示这一点,并表明基于搜索的规划可以在LLM的游戏表现中带来显著的改进。我们介绍了两种主要方法并进行了对比:在外部搜索中,模型引导蒙特卡罗树搜索(MCTS)的展开和评估,而不调用外部游戏引擎;在内部搜索中,模型被训练生成上下文相关的搜索树及其最终选择。两种方法都基于预训练在相关领域知识上,能够可靠地捕捉各自环境中的转移和价值函数,几乎没有幻觉。我们对我们的LLM搜索实现与特定游戏的最先进的引擎进行了评估,展示了相对于基础模型的显著性能提升,并在国际象棋中达到了大师级水平的表现,同时使用了接近人类搜索预算的方法。我们提出的方法结合了搜索与领域知识,不仅适用于棋盘游戏,还暗示了更广泛未来的潜在应用。