摘要
离线元强化学习 (OMRL) 作为一种很有前景的方法,通过利用预先收集的数据和元学习技术来实现交互避免和强大的泛化性能。 之前的基于上下文的方案主要依赖于这样的直觉:只要上下文编码器遵循最大化任务和任务表示之间互信息的原则 ($I(Z;M)$),而策略采用标准的离线强化学习 (RL) 算法,以学习到的任务表示为条件,那么在上下文编码器和策略之间交替优化就可以带来性能提升。 尽管取得了可喜的成果,但这种直觉的性能提升的理论依据尚未得到充分探索。 受模型化 RL 领域中回报差异方案的启发,我们发现之前的优化框架可以与最大化预期回报的通用 RL 目标联系起来,从而为性能提升提供了一个可行的解释。 此外,在仔细审查了这种优化框架之后,我们发现它忽略了交替优化过程中任务表示变化带来的影响,这可能会导致性能提升崩溃。 我们将这个问题命名为 \underline{任务表示偏移},并从理论上证明了通过适当的上下文编码器更新可以保证单调的性能提升。 我们针对不同的数据质量,在三个广泛采用的关于最大化 $I(Z;M)$ 的训练目标上,设定了不同的方法来控制任务表示偏移。 实验结果表明,控制任务表示偏移确实可以提高性能。 我们的工作为 OMRL 开辟了一条新的途径,从而更好地理解性能和任务表示之间的关系。