摘要
arXiv:2504.07092v2 宣告类型: 替换-交叉
摘要:对象中心学习(OCL)寻求学习仅编码对象的表示,而不受场景中其他对象或背景提示的影响。这种方法支持各种目标,包括跨分布(OOD)泛化、样本高效组合以及结构化环境建模。大多数研究集中在开发无监督机制,将对象在表示空间中分离为离散槽,通过无监督对象发现进行评估。然而,随着最近的样本高效分割模型,我们可以在像素空间中分离对象并独立编码它们。这在OOD对象发现基准上实现了令人瞩目的零样本性能,并且可以实现到基础模型,并且可以处理任意数量的槽。因此,OCL方法获取对象中心表示的目标已基本实现。尽管取得了这些进展,仍存在一个关键问题:场景中分离对象的能力如何有助于更广泛的OCL目标,如OOD泛化?我们通过利用OCL的视角来研究由于虚假背景提示引起的OOD泛化挑战,来解决这个问题。我们提出了一种新的、无需训练的探测器,称为与应用掩码的对象中心分类(OCCAM),证明基于分割的个体对象编码显著优于基于槽的OCL方法。然而,在实际应用中仍存在挑战。我们为OCL社区提供了可扩展的对象中心表示工具箱,并专注于实际应用和根本问题,如理解人类认知中的对象感知。我们的代码可在以下链接获取:https://github.com/AlexanderRubinstein/OCCAM。