LLM2D

摘要

arXiv:2505.05701v1 宣告类型: 新摘要: 离线强化学习（RL）的目标是从静态数据集中学习策略，而无需进一步与环境互动。收集足够大的离线RL数据集是令人筋疲力尽的，因为这需要与环境进行大量的互动，当与环境的互动受到限制时，情况变得尤为复杂。因此，如何在使用最少的静态数据集的情况下使代理学习最佳策略，成为离线RL中的一个关键问题，类似于在线RL中的样本高效性问题。在本文中，我们提出了一种简单且有效的即插即用预训练方法，以增强离线RL中的数据效率。具体而言，我们引入了一种共享的Q网络结构，该结构输出下一个状态的预测和Q值。我们通过一个监督回归任务预训练共享的Q网络，该任务预测下一个状态，并使用不同的离线RL方法训练共享的Q网络。通过广泛的实验，我们实验证明，我们的方法可以增强在D4RL、Robomimic和V-D4RL基准上现有的流行离线RL方法的性能。此外，我们展示了我们的方法在D4RL和ExoRL基准上显著提升了不同数据质量和数据分布下的数据高效离线RL。值得一提的是，即使只使用数据集的10%，我们的方法也优于标准算法，即使是在完整的数据集上。