LLM2D
连续控制中的演员-评论家强化学习的蒙特卡洛束搜索
Monte Carlo Beam Search for Actor-Critic Reinforcement Learning in Continuous Control
作者: Hazim Alzorgan, Abolfazl Razi
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09029v1

摘要

arXiv:2505.09029v1 Announce Type: 新 摘要:似 Actor-critic 方法,如双重延迟深度确定性策略梯度(TD3),依赖于基于噪声的基本探索方式,这可能导致政策收敛效果不佳。在本研究中,我们引入了一种新的混合方法——蒙特卡洛束搜索(MCBS),该方法结合了束搜索、蒙特卡洛展开与 TD3,以提高探索和动作选择。MCBS 在策略输出周围生成若干候选动作,并通过短期展开进行评估,从而使智能体能够做出更明智的选择。我们针对半LLU纲萧匀区髄鞍惰街区,跳骆卢屋,拉屋屎盎机亵笔畏潇洼吮赋拘朝妇屎侩镂卢屋跳骆卢屋,爬虫-5 等多种连续控制基准测试了 MCBS,结果显示 MCBS 在样本效率和性能上均优于标准 TD3 以及其他基准方法,如 SAC、PPO 和 A2C。我们的研究强调了 MCBS 通过结构化的前瞻搜索增强政策学习的能力,同时保证了计算效率。此外,我们详细分析了关键超参数,如束宽和展开深度,并探讨了适应性策略以优化 MCBS 对于复杂控制任务的效果。我们的方法在不同环境中的收敛速度均超过了 TD3、SAC、PPO 和 A2C。例如,我们只用了大约 20 万个时间步就达到了最大可实现奖励的大约 90%,而第二个最佳方法则需要 40 万个时间步。