LLM2D

摘要

arXiv:2411.17438v2 自动智能代理公告类型：取代摘要：自主智能代理必须在从感官输入和运动命令的低级空间到高级抽象推理和规划领域的不同抽象层次上解决计算挑战。设计这种代理时的一个关键问题是，如何最好地实现将这两个层级连接起来的表示空间——理想情况下无需昂贵的数据标注形式的监督。这些目标可以通过以对象为中心的方式表示世界来高效地实现（这些对象基于感知和行动）。在本文中，我们提出了一种新颖的、受脑启发的深度学习架构，该架构通过像素学习来解释、控制并对其环境进行推理，使用以对象为中心的表示。我们通过需要结合高级逻辑推理和低级连续控制的任务，在合成环境中展示了我们方法的实用性。结果表明，代理可以学习出自动出现的条件行为推理，例如 $(A \to B) \land (\neg A \to C)$，以及逻辑组合 $(A \to B) \land (A \to C) \vdash A \to (B \land C)$ 和异或操作，并成功地控制其环境以满足从这些逻辑规则推导出的目标。代理可以在线适应其环境中的意外变化，并由于动态内部期望目标生成而对轻微违反其世界模型的逆境具有鲁棒性。虽然目前的结果仅限于合成环境（2D和3D激活版本的dSprites），尚未达到现实世界的复杂性水平，但提出架构展示了如何通过使用接地对象表示，作为无监督学习的关键归纳偏置，来实现行为推理。