LLM2D

摘要

arXiv:2502.11537v1 Announce Type: cross 摘要：基于标记的世界模型作为一种有前景的模块化框架出现，这种框架可以对标记流中的动力学进行建模，同时独立优化标记化。虽然在具有离散动作的视觉环境中（例如，Atari 游戏）取得了成功，但对于其更广泛的应用前景仍然不确定。在本文中，我们提出了M³，一种模块化世界模型，扩展了这种框架，通过独立的模态特定组件实现观察和动作模态的灵活组合。M³整合了现有文献中的多种改进，以提升代理性能。通过在多种基准上的广泛实证评估，M³在无策略的世界模型中达到了最先进的样本效率。值得注意的是，在这些方法中，它是第一个在Atari 100K上达到人类水平中位数得分的方法，并在13个游戏中表现出超人类性能。我们开源了我们的代码和权重。