摘要
arXiv:2502.01672v1 类型: cross
摘要: 我们提出了双重稳健蒙特卡洛树搜索 (DR-MCTS) 算法,这是一种将双重稳健 (DR) 非策略估计集成到蒙特卡洛树搜索 (MCTS) 中的新颖算法,以增强复杂环境中的样本效率和决策质量。我们的方法引入了一种混合估计器,将 MCTS 蒙特卡罗展开与 DR 估计结合起来,在特定条件下提供了无偏性和方差减少的理论保证。在井字游戏和部分可观测的 VirtualHome 环境中的实证评估表明,DR-MCTS 在性能上优于标准 MCTS。在井字游戏中,DR-MCTS 的胜率达到了 88%,而标准 MCTS 的胜率为 10%。在复合 VirtualHome 任务中,DR-MCTS 的成功率达到了 20.7%,而标准 MCTS 的成功率仅为 10.3%。我们的可扩展性分析揭示,DR-MCTS 在样本效率方面表现出色,特别是在使用较小模型时,比标准 MCTS 更好地利用了更大的语言模型。这些结果强调了 DR-MCTS 在样本效率至关重要的复杂现实场景中的高效决策潜力。