摘要
arXiv:2409.14084v1 公告类型: 交叉 摘要: 世界模型是一种对真实世界环境的时空压缩表示,允许训练智能体或执行规划方法。然而,世界模型通常基于真实世界环境的观测数据进行训练,通常无法为其他真实环境学习策略。我们提出了一步世界模型(OSWM),这是一种基于上下文学习方式从纯合成数据中学习的变压器世界模型。我们的先验由多个随机初始化的神经网络组成,每个网络模拟目标环境的状态和奖励维度的动态。我们采用了先验拟合网络的监督学习过程,通过随机遮蔽上下文位置的下一状态和奖励,并查询OSWM基于剩余的过渡上下文进行概率预测。在推理阶段,OSWM能够快速适应简单网格世界、CartPole gym以及自定义控制环境的动态,通过提供1k过渡步骤作为上下文,并能够成功训练解决环境问题的智能体策略。然而,转移到更复杂的环境仍然是一个挑战,目前。尽管存在这些限制,我们认为这项工作是纯粹从合成数据中学习世界模型的重要一步。