摘要
arXiv:2403.07887v3 通告类型: replace-cross
摘要:人类认知的多个论述认为,我们的智能源自形成抽象可组合的概念、将这些概念扎根于环境以及在这些扎根实体上进行推理的能力。这一人类思维的三重组合在现代智能机器中始终难以实现。在这项工作中,我们探讨了从视觉场景中提取的槽表示是否适合作为适当的组合抽象来进行扎根和推理。我们介绍了神经槽解释器(NSI),它学习将物体语义扎根于槽中。NSI的核心是一个类似于XML的模式,它使用简单的语法规则将场景中的物体语义组织成物体为中心的模式原语。然后,通过结构化的对比学习目标,NSI评估了这些原语与槽之间的跨模态对齐,从而学习扎根。具有双模物体属性和场景检索任务的实验展示了NSI学习对应关系的有效性和可解释性。从场景表示的角度来看,我们发现,NSI槽通过绑定到空间对象超越了图像网格,从而在视觉扎根方面优于基于常规边界框的方法。从数据效率的角度来看,我们实验证明,与传统的做法相比,NSI可以从固定数量的注解数据中学习到更具推广性的表示。我们还展示了根植槽在实际物体发现中优于无监督的槽,并且随着场景复杂性的增加而规模扩大。最后,我们研究了根植槽的推理能力。使用感知耕耘意识到的NSI标记器进行训练的视觉变换器,在仅使用十个标记的挑战性少量样本分类任务中,优于基于块的标记。