摘要
世界模型正逐渐应用于各个领域,从基本的环境模拟到复杂的场景构建。然而,现有的模型主要针对特定领域的 状态和动作进行训练,并且局限于单模态状态表示。本文介绍了 WorldGPT,一个基于多模态大型语言模型 (MLLM) 的通用世界模型。WorldGPT 通过分析来自各个领域的数百万视频,获得了对世界动态的理解。为了进一步增强 WorldGPT 在特定场景和长期任务中的能力,我们将它与一种新颖的认知架构相结合,该架构结合了记忆卸载、知识检索和上下文反思。在评估方面,我们构建了 WorldNet,一个包含各种现实生活场景的多模态状态转换预测基准。在 WorldNet 上进行的评估直接证明了 WorldGPT 能够准确地模拟状态转换模式,证实了它在理解和预测复杂场景动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力,帮助多模态代理通过有效地合成多模态指令实例来泛化到不熟悉的领域,这些实例被证明与真实数据一样可靠,可用于微调目的。该项目可在 \url{https://github.com/DCDmllm/WorldGPT} 上获取。