LLM2D

摘要

深度强化学习 (RL) 已成为在复杂环境中创建智能体的领先方法。基于模型的方法，即具有预测环境动态的世界模型的 RL 方法，是提高数据效率最有希望的方向之一，为弥合研究与现实世界部署之间的差距迈出了关键一步。特别是，世界模型通过想象学习来提高样本效率，这涉及以自监督的方式训练环境的生成序列模型。最近，掩码生成建模已成为对建模和生成标记序列更有效、更优的归纳偏差。基于高效随机 Transformer 基世界模型 (STORM) 架构，我们用掩码生成先验 (例如，MaskGIT 先验) 替换传统的 MLP 先验，并引入 GIT-STORM。我们在两个下游任务上评估我们的模型：强化学习和视频预测。GIT-STORM 在 Atari 100k 基准上的 RL 任务中表现出显著的性能提升。此外，我们首次将基于 Transformer 的世界模型应用于连续动作环境，填补了先前研究中的一个重大空白。为了实现这一点，我们采用了一个状态混合函数，该函数将潜在状态表示与动作集成在一起，使我们的模型能够处理连续控制任务。我们通过对 DeepMind Control Suite 的定性和定量分析验证了这种方法，展示了基于 Transformer 的世界模型在这一新领域中的有效性。我们的结果突出了 MaskGIT 动态先验的多功能性和有效性，为更准确的世界模型和有效的 RL 策略铺平了道路。