LLM2D

摘要

arXiv:2504.07092v1 宣告类型: cross 摘要: 对象中心学习(OCL)旨在学习仅编码一个对象的表示，而不受场景中其他对象或背景线索的影响。这种方法支撑了各种目标，包括出分布(OOD)泛化、高效采样组合和结构化环境建模。大多数研究重点是开发无监督机制，将对象分离到表示空间中的离散槽中，并通过无监督对象发现进行评估。然而，随着最近的高效采样分割模型，我们可以在像素空间中分离对象，并独立编码它们，这在OOD对象发现基准测试中实现了令人瞩目的零样本性能，且可以扩展到基础模型，并可以处理标准外的任意数量的槽。因此，OCL方法获得对象中心表示的目标已基本实现。尽管取得了这些进展，但一个关键问题仍然存在：场景中分离对象的能力如何有助于更广泛的OCL目标，如OOD泛化？我们通过从OCL的角度探讨这种由虚假背景线索引起的OOD泛化挑战来解决这一问题。我们提出了一种新的、无需训练的探测器$\textbf{Object-Centric Classification with Applied Masks (OCCAM)}$，证明了基于分割的独立个体对象编码显著优于基于槽的OCL方法。然而，在实际应用中仍存在挑战。我们为OCL社区提供了可扩展的对象中心表示工具箱，并专注于实际应用和根本性问题，如理解人类认知中的对象感知。我们的代码可在此处获取 $\href{https://github.com/AlexanderRubinstein/OCCAM}{here}$。