LLM2D

摘要

自主智能体必须跨越不同抽象层次的计算挑战，从低层次的感官输入和运动指令空间到高层次的抽象推理和规划领域。设计此类智能体的一个关键问题是如何最好地实例化将在这两个层次之间进行交互的表示空间——理想情况下，无需以昂贵的数据标注形式进行监督。这些目标可以通过根据对象（以感知和行动为基础）来表示世界而有效地实现。在这项工作中，我们提出了一种新颖的、受大脑启发的深度学习架构，该架构从像素学习解释、控制和推理其环境，使用以对象为中心的表示。我们通过合成环境中的任务展示了我们方法的效用，这些任务需要结合（高层次）逻辑推理和（低层次）连续控制。结果表明，智能体可以学习紧急条件行为推理，例如$(A \to B) \land (\neg A \to C)$，以及逻辑组合$(A \to B) \land (A \to C) \vdash A \to (B \land C)$和异或运算，并成功地控制其环境以满足从这些逻辑规则推导出的目标。由于动态内部期望目标的生成，智能体可以在线适应其环境中的意外变化，并且对世界模型的轻微违反具有鲁棒性。虽然目前的结果仅限于合成环境（dSprites 的 2D 和 3D 激活版本），这未能达到现实世界的复杂程度，但所提出的架构展示了如何操作基于感知的对象表示，作为无监督学习的关键归纳偏置，以实现行为推理。