摘要
arXiv:2402.11317v2 宣告类型: replace-cross
摘要:开发能够适应非平稳环境的策略对于实际的强化学习应用至关重要。然而,在只有有限数量的预先收集轨迹的离线设置中学习具有适应性的策略,提出了重大挑战。一个关键难点在于有限的离线数据使得上下文编码难以区分环境动力学的变化和行为策略的变化,通常会导致上下文误关联。为了应对这一问题,我们提出了一种称为快速在线适应的无偏离线表示(DORA)的新方法。DORA 结合了一个信息瓶颈原理,该原理旨在最大化动力学编码与环境数据之间的互信息,同时最小化动力学编码与行为策略动作之间的互信息。我们提出了 DORA 的一个实用实现,利用信息瓶颈原理的可计算界限。我们在六个具有可变参数的基准 MuJoCo 任务中的实验评估表明,DORA 不仅实现了更精确的动力学编码,还在性能方面显著优于现有基线。