LLM2D

摘要

学习一个潜在动力学模型可以提供一个任务无关的表示，用于描述智能体对其环境的理解。将这种知识应用于基于模型的强化学习，有可能通过在想象的展开中学习来提高样本效率，从而优于无模型方法。此外，由于潜在空间作为行为模型的输入，世界模型学习到的信息性表示有助于有效地学习所需技能。大多数现有方法依赖于环境状态的整体表示。相比之下，人类会推理物体及其相互作用，预测行动将如何影响其周围环境的特定部分。受此启发，我们提出了面向对象的潜在动力学的槽注意力（SOLD），这是一种新颖的算法，可以从像素输入中以无监督的方式学习面向对象的动力学模型。我们证明了结构化的潜在空间不仅提高了模型的可解释性，而且还为行为模型提供了宝贵的输入空间，用于推理。我们的结果表明，SOLD 在一系列基准机器人环境中优于 DreamerV3，这是一种最先进的基于模型的 RL 算法，这些环境评估了关系推理和低级操作能力。视频可在 https://slot-latent-dynamics.github.io/ 上获得。