摘要
arXiv:2505.05701v1 宣告类型: 新
摘要: 离线强化学习(RL)的目标是从静态数据集中学习策略,而无需进一步与环境互动。收集足够大的离线RL数据集是令人筋疲力尽的,因为这需要与环境进行大量的互动,当与环境的互动受到限制时,情况变得尤为复杂。因此,如何在使用最少的静态数据集的情况下使代理学习最佳策略,成为离线RL中的一个关键问题,类似于在线RL中的样本高效性问题。在本文中,我们提出了一种简单且有效的即插即用预训练方法,以增强离线RL中的数据效率。具体而言,我们引入了一种共享的Q网络结构,该结构输出下一个状态的预测和Q值。我们通过一个监督回归任务预训练共享的Q网络,该任务预测下一个状态,并使用不同的离线RL方法训练共享的Q网络。通过广泛的实验,我们实验证明,我们的方法可以增强在D4RL、Robomimic和V-D4RL基准上现有的流行离线RL方法的性能。此外,我们展示了我们的方法在D4RL和ExoRL基准上显著提升了不同数据质量和数据分布下的数据高效离线RL。值得一提的是,即使只使用数据集的10%,我们的方法也优于标准算法,即使是在完整的数据集上。