LLM2D
双稳健蒙特卡洛树搜索
Doubly Robust Monte Carlo Tree Search
作者: Manqing Liu, Andrew L. Beam
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01672v1

摘要

arXiv:2502.01672v1 Announce Type: cross 摘要:我们提出了双重稳健蒙特卡洛树搜索(DR-MCTS),这是一种将双重稳健(DR)离策评估整合入蒙特卡洛树搜索(MCTS)中的新算法,以提高复杂环境中的样本效率和决策质量。我们的方法引入了一种混合估计器,将MCTS滚动策略与DR估计相结合,在特定条件下提供了无偏性和方差减小的理论保证。在井字棋和部分可观测的VirtualHome环境中,DR-MCTS的性能优于标准MCTS。在井字棋中,DR-MCTS的胜率达到了88%,而标准MCTS仅为10%。在复合VirtualHome任务中,DR-MCTS的成功率为20.7%,而标准MCTS为10.3%。我们的缩放分析显示,DR-MCTS在样本效率方面表现更好,特别是在使用较小的模型时优于标准MCTS,但仍能与较大的语言模型竞争。这些结果突显了DR-MCTS在样本效率至关重要的复杂现实场景中进行高效决策的潜力。