摘要
arXiv:2502.11537v1 Announce Type: cross
摘要:基于标记的世界模型作为一种有前景的模块化框架出现,这种框架可以对标记流中的动力学进行建模,同时独立优化标记化。虽然在具有离散动作的视觉环境中(例如,Atari 游戏)取得了成功,但对于其更广泛的应用前景仍然不确定。在本文中,我们提出了M³,一种模块化世界模型,扩展了这种框架,通过独立的模态特定组件实现观察和动作模态的灵活组合。M³整合了现有文献中的多种改进,以提升代理性能。通过在多种基准上的广泛实证评估,M³在无策略的世界模型中达到了最先进的样本效率。值得注意的是,在这些方法中,它是第一个在Atari 100K上达到人类水平中位数得分的方法,并在13个游戏中表现出超人类性能。我们开源了我们的代码和权重。