LLM2D
克服连续控制中缓慢的决策频率:基于模型的序列强化学习用于无模型控制
Overcoming Slow Decision Frequencies in Continuous Control: Model-Based Sequence Reinforcement Learning for Model-Free Control
作者: Devdhar Patel, Hava Siegelmann
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08979v1

摘要

强化学习 (RL) 正在快速达到并超越人类水平的控制能力。然而,最先进的 RL 算法通常需要比人类能力快得多的时间步长和反应时间,这在现实世界中是不切实际的,并且通常需要专门的硬件。这样的速度在现实世界中很难实现,并且通常需要专门的硬件。我们介绍了序列强化学习 (SRL),这是一种 RL 算法,旨在为给定的输入状态生成一系列动作,从而在较低的决策频率下实现有效的控制。SRL 通过采用在不同时间尺度上运行的模型和演员-评论家架构来解决学习动作序列的挑战。我们提出了一种“时间召回”机制,其中评论家使用模型来估计基本动作之间的中间状态,为序列中每个单独的动作提供学习信号。训练完成后,演员可以独立于模型生成动作序列,以较慢的频率实现无模型控制。我们在套件连续控制任务上评估了 SRL,证明它实现了与最先进算法相当的性能,同时显着降低了演员样本复杂度。为了更好地评估不同决策频率下的性能,我们引入了频率平均得分 (FAS) 指标。我们的结果表明,SRL 在 FAS 方面明显优于传统的 RL 算法,使其特别适用于需要可变决策频率的应用。此外,我们将 SRL 与基于模型的在线规划进行了比较,结果表明,SRL 在训练期间利用与在线规划器用于规划相同的模型,同时实现了更高的 FAS。