LLM2D
通过联合优化世界-动作模型预训练扩展离线模型的强化学习
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining
作者: Jie Cheng, Ruixi Qiao, Gang Xiong, Qinghai Miao, Yingwei Ma, Binhua Li, Yongbin Li, Yisheng Lv
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00564v1

摘要

离线强化学习(RL)的一个重要目标是从大型异构数据集训练出具有高能力的通用代理。然而,现有的扩展离线RL方法要么严重依赖专家轨迹,要么难以泛化到不同的未见任务。受条件视频生成中世界模型出色泛化能力的启发,我们探索了基于图像观测的世界模型在扩展离线RL和增强新任务泛化能力方面的潜力。在本文中,我们介绍了JOWA:联合优化世界-动作模型,这是一个基于离线模型的RL代理,在多个Atari游戏中进行预训练,以学习通用表示和决策能力。我们的方法通过共享的Transformer主干联合优化世界-动作模型,这在预训练期间稳定了大型模型的时序差分学习。此外,我们提出了一种可证明高效且可并行的规划算法来补偿Q值估计误差,从而找到更好的策略。实验结果表明,我们最大的代理(拥有1.5亿个参数)仅使用10%的子采样离线数据,在预训练的游戏中达到了78.9%的人类水平性能,在平均水平上比现有的最先进的大规模离线RL基线高出31.6%。此外,JOWA在模型容量方面表现良好,并且可以使用仅5k个离线微调数据(对应于每个游戏约4个轨迹)有效地转移到新游戏,这证明了JOWA的优越泛化能力。我们将发布代码,网址为https://github.com/CJReinforce/JOWA。