LLM2D

摘要

arXiv:2403.07887v2 公告类型: 替换-交叉摘要: 多项关于人类认知的论述认为，我们的智能根植于我们形成抽象可组合概念、将这些概念根植于环境并基于这些根植实体进行推理的能力。这一人类思维的三位一体在现代智能机器中仍然难以捉摸。在本研究中，我们探讨了从视觉场景中提取的槽位表示是否适合作为根植和推理的组合抽象。我们提出了神经槽解释器（NSI），该模型学习将对象语义根植于槽位中。NSI的核心是一个类似XML的架构，它使用简单的语法规则将场景的对象语义组织成以对象为中心的架构原语。然后，NSI度量通过一个结构化的目标学习将原语根植于槽位中，该目标考虑了跨模态的对齐。我们展示了根植的槽位在现实世界对象发现中超越了无监督槽位，并随着场景复杂性的增加而扩展。在双模态对象-属性及场景检索任务中的实验证明了NSI学习的对应关系的根植效力和可解释性。最后，我们研究了根植槽位的推理能力。使用仅十个标记的根植感知NSI标记器训练的视觉变换器在具有挑战性的少样本分类任务中优于基于分块的标记器。