摘要
arXiv:2403.07887v4 通知类型: replace-cross
摘要: 一些关于人类认知的论述认为,我们的智力源于我们形成抽象可组合概念的能力,在环境中建立这些概念,并对这些地基实体进行推理。这一组合而成的思考 trifecta 在现代智能机器中一直难以实现。在这项工作中,我们探讨从视觉场景中提取的槽表示是否作为适当的组合抽象,用于建立连接和推理。我们提出了神经槽解释器(NSI),并使其学习将对象语义锚定在槽中。NSI的核心是一个嵌套模式,使用简单的语法规则将场景中的对象语义组织成以对象为中心的模式原语。然后,NSI 指标通过结构化的对比学习目标进行学习,该目标可以对跨模态对齐进行推理,从而将这些原语锚定到槽中。通过双向对象-属性和场景检索任务的实验,展示了 NSI 学习的连接的有效性和可解释性。从场景表示的角度来看,我们发现,超越图格绑定到空间对象的新兴 NSI 槽,相对于基于常规边界框的方法,能够实现更好的视觉接地。从数据效率的角度来看,我们实验证明,NSI 能够从固定数量的注释数据中学习出更具泛化性的表示,而传统方法则不能。此外,我们展示了地基槽在现实世界中的对象发现中超过了无监督槽,随着场景复杂度的增加,它们也能够扩展。最后,我们研究了地基槽在下游的应用效果。使用感知连接的 NSI 代币化器训练的视力变换器,即使在使用最少十个代币的情况下,也能在具有挑战性的少量样本分类任务中优于基于片段的代币。