摘要
arXiv:2504.08388v1 Announce Type: cross
摘要:世界建模是使智能代理能够有效与人类交互并在动态环境中操作的关键任务。在这项工作中,我们提出了MineWorld,这是一个基于 Minecraft 的实时交互式世界模型,Minecraft 是一个开放Ended 沙盒游戏,常被用作世界建模的通用测试平台。MineWorld 由一个视觉动作自回归变换器驱动,该变换器接受配对的游戏场景和相应动作作为输入,并根据这些动作生成后续的新场景。具体来说,通过将视觉游戏场景和动作分别用图像标记器和动作标记器转换为离散 token ID,我们将两种 ID 的连接体作为模型输入组成。然后,通过下一步 token 预测对模型进行训练,使其同时学习游戏状态以及状态和动作之间的条件的丰富表示。在推理过程中,我们开发了一种新颖的并行解码算法,该算法可以同时预测每一帧中的空间冗余 token,让不同规模的模型每秒生成 4 到 7 帧,从而使得与游戏玩家的实时互动成为可能。在评估过程中,我们提出了新的指标来评估生成新场景的视觉质量和动作跟随能力,这对于世界模型来说是至关重要的。我们全面的评估结果显示,MineWorld 的效果优于显著领先于目前最先进的开源扩散型世界模型。代码和模型已经发布。