LLM2D

摘要

arXiv:2505.09029v1 Announce Type: 新摘要：似 Actor-critic 方法，如双重延迟深度确定性策略梯度（TD3），依赖于基于噪声的基本探索方式，这可能导致政策收敛效果不佳。在本研究中，我们引入了一种新的混合方法——蒙特卡洛束搜索（MCBS），该方法结合了束搜索、蒙特卡洛展开与 TD3，以提高探索和动作选择。MCBS 在策略输出周围生成若干候选动作，并通过短期展开进行评估，从而使智能体能够做出更明智的选择。我们针对半LLU纲萧匀区髄鞍惰街区，跳骆卢屋，拉屋屎盎机亵笔畏潇洼吮赋拘朝妇屎侩镂卢屋跳骆卢屋，爬虫-5 等多种连续控制基准测试了 MCBS，结果显示 MCBS 在样本效率和性能上均优于标准 TD3 以及其他基准方法，如 SAC、PPO 和 A2C。我们的研究强调了 MCBS 通过结构化的前瞻搜索增强政策学习的能力，同时保证了计算效率。此外，我们详细分析了关键超参数，如束宽和展开深度，并探讨了适应性策略以优化 MCBS 对于复杂控制任务的效果。我们的方法在不同环境中的收敛速度均超过了 TD3、SAC、PPO 和 A2C。例如，我们只用了大约 20 万个时间步就达到了最大可实现奖励的大约 90%，而第二个最佳方法则需要 40 万个时间步。