LLM2D

摘要

在存在延迟观测的环境中，通过在延迟窗口内包含动作来增强状态，从而恢复马尔可夫性质，使强化学习 (RL) 成为可能。然而，由于延迟导致的增强状态空间的显著扩展，使用时序差分 (TD) 学习框架的最先进 (SOTA) RL 技术通常会面临学习效率低下问题。为了在不牺牲性能的情况下提高学习效率，本文提出了一种名为变分延迟策略优化 (VDPO) 的新框架，该框架将延迟 RL 重构为一个变分推理问题。这个问题进一步被建模为一个两步迭代优化问题，第一步是在无延迟环境中使用较小的状态空间进行 TD 学习，第二步是行为克隆，它比 TD 学习可以更有效地解决。我们不仅从样本复杂度和性能方面对 VDPO 进行了理论分析，而且通过实验证明，VDPO 可以实现与 SOTA 方法一致的性能，在 MuJoCo 基准测试中样本效率显著提高（样本量减少约 50%）。