LLM2D

摘要

arXiv:2504.07092v2 宣告类型: 替换-交叉摘要：对象中心学习（OCL）寻求学习仅编码对象的表示，而不受场景中其他对象或背景提示的影响。这种方法支持各种目标，包括跨分布（OOD）泛化、样本高效组合以及结构化环境建模。大多数研究集中在开发无监督机制，将对象在表示空间中分离为离散槽，通过无监督对象发现进行评估。然而，随着最近的样本高效分割模型，我们可以在像素空间中分离对象并独立编码它们。这在OOD对象发现基准上实现了令人瞩目的零样本性能，并且可以实现到基础模型，并且可以处理任意数量的槽。因此，OCL方法获取对象中心表示的目标已基本实现。尽管取得了这些进展，仍存在一个关键问题：场景中分离对象的能力如何有助于更广泛的OCL目标，如OOD泛化？我们通过利用OCL的视角来研究由于虚假背景提示引起的OOD泛化挑战，来解决这个问题。我们提出了一种新的、无需训练的探测器，称为与应用掩码的对象中心分类（OCCAM），证明基于分割的个体对象编码显著优于基于槽的OCL方法。然而，在实际应用中仍存在挑战。我们为OCL社区提供了可扩展的对象中心表示工具箱，并专注于实际应用和根本问题，如理解人类认知中的对象感知。我们的代码可在以下链接获取：https://github.com/AlexanderRubinstein/OCCAM。