LLM2D

摘要

离线元强化学习 (OMRL) 凭借其利用预收集数据和元学习技术的优势，已成为一种很有前景的避免交互并实现强大泛化性能的方法。以往基于上下文的方案主要依赖于以下直觉：只要上下文编码器遵循最大化任务变量 $M$ 与其潜在表示 $Z$ 之间的互信息 ($I(Z;M)$) 的原则，而策略采用以学习到的任务表示为条件的标准离线强化学习 (RL) 算法，那么上下文编码器和策略之间的交替优化就可以带来性能提升。尽管取得了有希望的结果，但这种直觉的性能提升的理论依据仍未得到充分探索。受模型化 RL 领域中回报差异方案的启发，我们发现之前的优化框架可以与最大化预期回报的通用 RL 目标联系起来，从而解释了性能提升。此外，在仔细审查了这种优化框架后，我们发现它忽略了交替优化过程中任务表示的变化，这削弱了单调性能提升的必要条件，因此可能违反单调性。我们将此问题称为 \underline{任务表示偏移}，并从理论上证明了通过适当的上下文编码器更新可以保证单调性能提升。我们在三个广泛采用的关于最大化不同数据质量下 $I(Z;M)$ 的训练目标上使用了不同的设置来控制任务表示偏移。实证结果表明，控制任务表示偏移确实可以提高性能。