LLM2D
我们已经完成以对象为中心的学习了吗?
Are We Done with Object-Centric Learning?
作者: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.07092v1

摘要

arXiv:2504.07092v1 宣告类型: cross 摘要: 对象中心学习(OCL)旨在学习仅编码一个对象的表示,而不受场景中其他对象或背景线索的影响。这种方法支撑了各种目标,包括出分布(OOD)泛化、高效采样组合和结构化环境建模。大多数研究重点是开发无监督机制,将对象分离到表示空间中的离散槽中,并通过无监督对象发现进行评估。然而,随着最近的高效采样分割模型,我们可以在像素空间中分离对象,并独立编码它们,这在OOD对象发现基准测试中实现了令人瞩目的零样本性能,且可以扩展到基础模型,并可以处理标准外的任意数量的槽。因此,OCL方法获得对象中心表示的目标已基本实现。尽管取得了这些进展,但一个关键问题仍然存在:场景中分离对象的能力如何有助于更广泛的OCL目标,如OOD泛化?我们通过从OCL的角度探讨这种由虚假背景线索引起的OOD泛化挑战来解决这一问题。我们提出了一种新的、无需训练的探测器$\textbf{Object-Centric Classification with Applied Masks (OCCAM)}$,证明了基于分割的独立个体对象编码显著优于基于槽的OCL方法。然而,在实际应用中仍存在挑战。我们为OCL社区提供了可扩展的对象中心表示工具箱,并专注于实际应用和根本性问题,如理解人类认知中的对象感知。我们的代码可在此处获取 $\href{https://github.com/AlexanderRubinstein/OCCAM}{here}$。