LLM2D

摘要

离线强化学习（RL）的一个重要目标是从大型异构数据集训练出具有高能力的通用代理。然而，现有的扩展离线RL方法要么严重依赖专家轨迹，要么难以泛化到不同的未见任务。受条件视频生成中世界模型出色泛化能力的启发，我们探索了基于图像观测的世界模型在扩展离线RL和增强新任务泛化能力方面的潜力。在本文中，我们介绍了JOWA：联合优化世界-动作模型，这是一个基于离线模型的RL代理，在多个Atari游戏中进行预训练，以学习通用表示和决策能力。我们的方法通过共享的Transformer主干联合优化世界-动作模型，这在预训练期间稳定了大型模型的时序差分学习。此外，我们提出了一种可证明高效且可并行的规划算法来补偿Q值估计误差，从而找到更好的策略。实验结果表明，我们最大的代理（拥有1.5亿个参数）仅使用10%的子采样离线数据，在预训练的游戏中达到了78.9%的人类水平性能，在平均水平上比现有的最先进的大规模离线RL基线高出31.6%。此外，JOWA在模型容量方面表现良好，并且可以使用仅5k个离线微调数据（对应于每个游戏约4个轨迹）有效地转移到新游戏，这证明了JOWA的优越泛化能力。我们将发布代码，网址为https://github.com/CJReinforce/JOWA。