摘要
在存在延迟观测的环境中,通过在延迟窗口内包含动作来增强状态,从而恢复马尔可夫性质,使强化学习 (RL) 成为可能。然而,由于延迟导致的增强状态空间的显著扩展,使用时序差分 (TD) 学习框架的最先进 (SOTA) RL 技术通常会面临学习效率低下问题。为了在不牺牲性能的情况下提高学习效率,本文提出了一种名为变分延迟策略优化 (VDPO) 的新框架,该框架将延迟 RL 重构为一个变分推理问题。这个问题进一步被建模为一个两步迭代优化问题,第一步是在无延迟环境中使用较小的状态空间进行 TD 学习,第二步是行为克隆,它比 TD 学习可以更有效地解决。我们不仅从样本复杂度和性能方面对 VDPO 进行了理论分析,而且通过实验证明,VDPO 可以实现与 SOTA 方法一致的性能,在 MuJoCo 基准测试中样本效率显著提高(样本量减少约 50%)。