摘要
近年来,生成模型的进展在图像生成和聊天机器人等许多领域带来了显著的创新。尽管取得了成功,但这些模型在处理复杂的、多智能体决策问题时,往往会产生粗略且误导性的解决方案,因为它们缺乏人类的试错经验和推理能力。为了解决这一局限性,我们探索了一种将语言引导模拟器整合到多智能体强化学习管道中的范式,以增强生成答案。模拟器是一个世界模型,它分别学习动力学和奖励,其中动力学模型包含一个图像标记器和一个因果变换器,以自回归方式生成交互转换,而奖励模型是一个双向变换器,通过在语言引导下最大化专家演示中轨迹的可能性来学习。给定当前状态的图像和任务描述,我们使用世界模型来训练联合策略,并通过在动力学模型上运行收敛的策略来生成图像序列作为答案。实证结果表明,该框架可以通过在星际争霸多智能体挑战基准的训练和未见任务中表现出优异的性能,来改进多智能体决策问题的答案。特别是,它可以在交互状态下生成一致的交互序列和可解释的奖励函数,为未来训练生成模型开辟了道路。