LLM2D

摘要

强化学习 (RL) 正在快速达到并超越人类水平的控制能力。然而，最先进的 RL 算法通常需要比人类能力快得多的时间步长和反应时间，这在现实世界中是不切实际的，并且通常需要专门的硬件。这样的速度在现实世界中很难实现，并且通常需要专门的硬件。我们介绍了序列强化学习 (SRL)，这是一种 RL 算法，旨在为给定的输入状态生成一系列动作，从而在较低的决策频率下实现有效的控制。SRL 通过采用在不同时间尺度上运行的模型和演员-评论家架构来解决学习动作序列的挑战。我们提出了一种“时间召回”机制，其中评论家使用模型来估计基本动作之间的中间状态，为序列中每个单独的动作提供学习信号。训练完成后，演员可以独立于模型生成动作序列，以较慢的频率实现无模型控制。我们在套件连续控制任务上评估了 SRL，证明它实现了与最先进算法相当的性能，同时显着降低了演员样本复杂度。为了更好地评估不同决策频率下的性能，我们引入了频率平均得分 (FAS) 指标。我们的结果表明，SRL 在 FAS 方面明显优于传统的 RL 算法，使其特别适用于需要可变决策频率的应用。此外，我们将 SRL 与基于模型的在线规划进行了比较，结果表明，SRL 在训练期间利用与在线规划器用于规划相同的模型，同时实现了更高的 FAS。