摘要
arXiv:2502.11537v2 译文标题类型: replace-cross
摘要: 基于令牌的世界模型作为一种有希望的模块化框架出现,该框架能够在令牌流中建模动态,并单独优化令牌化过程。尽管在具有离散动作的视觉环境中(例如,阿特利游戏)取得了成功,但它们的更广泛应用仍然存在不确定性。在本文中,我们引入了$\text{M}^{\text{3}}$,一种模块化世界模型,扩展了这一框架,通过独立的模态特定组件实现对观测和动作模态的灵活组合。$\text{M}^{\text{3}}$整合了现有文献中的多项改进,以增强代理性能。通过广泛的经验评估,$\text{M}^{\text{3}}$在无需规划的世界模型中达到了最先进的样本效率。值得注意的是,在这些方法中,它是第一个在阿特利100K上达到人类级别中位数得分的方法,并在13个游戏中表现出超乎常人的性能。我们的代码和模型权重可在https://github.com/leor-c/M3公开获取。