LLM2D

摘要

arXiv:2502.01672v1 类型: cross 摘要: 我们提出了双重稳健蒙特卡洛树搜索 (DR-MCTS) 算法，这是一种将双重稳健 (DR) 非策略估计集成到蒙特卡洛树搜索 (MCTS) 中的新颖算法，以增强复杂环境中的样本效率和决策质量。我们的方法引入了一种混合估计器，将 MCTS 蒙特卡罗展开与 DR 估计结合起来，在特定条件下提供了无偏性和方差减少的理论保证。在井字游戏和部分可观测的 VirtualHome 环境中的实证评估表明，DR-MCTS 在性能上优于标准 MCTS。在井字游戏中，DR-MCTS 的胜率达到了 88%，而标准 MCTS 的胜率为 10%。在复合 VirtualHome 任务中，DR-MCTS 的成功率达到了 20.7%，而标准 MCTS 的成功率仅为 10.3%。我们的可扩展性分析揭示，DR-MCTS 在样本效率方面表现出色，特别是在使用较小模型时，比标准 MCTS 更好地利用了更大的语言模型。这些结果强调了 DR-MCTS 在样本效率至关重要的复杂现实场景中的高效决策潜力。