摘要
arXiv:2410.08822v2 任务类型: replace-cross
摘要:学习一个潜在动力学模型为代理对其环境的理解提供了一种任务无关的表示。利用这种知识进行模型导向的强化学习(RL)有可能通过从假想的滚动过程中学习来提高基于样本的学习效率,从而超越无模型的方法。此外,由于潜在空间作为行为模型的输入,世界模型中学习到的具有信息性的表示促进了对期望技能的高效学习。现有方法大多依赖于环境状态的整体表示。相比之下,人类会根据物体及其相互作用推理,并预测行动将如何影响周围环境的特定部分。受到这一启发,我们提出了一种新的模型导向的RL算法——基于插槽注意力的对象中心化潜在动力学(SOLD),该算法能够从像素输入中以无监督的方式学习对象中心的动力学模型。我们证明,结构化潜在空间不仅提高了模型的可解释性,还为行为模型提供了一个有价值的输入空间来进行推理。我们的结果显示,无论是需要关系推理和操作能力的基准机器人环境中,SOLD 都优于目前最先进的基于模型的RL算法(如DreamerV3和TD-MPC2)。更多信息和视频请访问 https://slot-latent-dynamics.github.io/。