摘要
深度强化学习 (RL) 已成为在复杂环境中创建智能体的领先方法。基于模型的方法,即具有预测环境动态的世界模型的 RL 方法,是提高数据效率最有希望的方向之一,为弥合研究与现实世界部署之间的差距迈出了关键一步。特别是,世界模型通过想象学习来提高样本效率,这涉及以自监督的方式训练环境的生成序列模型。最近,掩码生成建模已成为对建模和生成标记序列更有效、更优的归纳偏差。基于高效随机 Transformer 基世界模型 (STORM) 架构,我们用掩码生成先验 (例如,MaskGIT 先验) 替换传统的 MLP 先验,并引入 GIT-STORM。我们在两个下游任务上评估我们的模型:强化学习和视频预测。GIT-STORM 在 Atari 100k 基准上的 RL 任务中表现出显著的性能提升。此外,我们首次将基于 Transformer 的世界模型应用于连续动作环境,填补了先前研究中的一个重大空白。为了实现这一点,我们采用了一个状态混合函数,该函数将潜在状态表示与动作集成在一起,使我们的模型能够处理连续控制任务。我们通过对 DeepMind Control Suite 的定性和定量分析验证了这种方法,展示了基于 Transformer 的世界模型在这一新领域中的有效性。我们的结果突出了 MaskGIT 动态先验的多功能性和有效性,为更准确的世界模型和有效的 RL 策略铺平了道路。