摘要
学习一个潜在动力学模型可以提供一个任务无关的表示,用于描述智能体对其环境的理解。将这种知识应用于基于模型的强化学习,有可能通过在想象的展开中学习来提高样本效率,从而优于无模型方法。此外,由于潜在空间作为行为模型的输入,世界模型学习到的信息性表示有助于有效地学习所需技能。大多数现有方法依赖于环境状态的整体表示。相比之下,人类会推理物体及其相互作用,预测行动将如何影响其周围环境的特定部分。受此启发,我们提出了面向对象的潜在动力学的槽注意力(SOLD),这是一种新颖的算法,可以从像素输入中以无监督的方式学习面向对象的动力学模型。我们证明了结构化的潜在空间不仅提高了模型的可解释性,而且还为行为模型提供了宝贵的输入空间,用于推理。我们的结果表明,SOLD 在一系列基准机器人环境中优于 DreamerV3,这是一种最先进的基于模型的 RL 算法,这些环境评估了关系推理和低级操作能力。视频可在 https://slot-latent-dynamics.github.io/ 上获得。