LLM2D
语言可控的以对象为中心的视觉表示学习
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning
作者: Aniket Didolkar, Andrii Zadaianchuk, Rabiul Awal, Maximilian Seitzer, Efstratios Gavves, Aishwarya Agrawal
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21747v1

摘要

arXiv:2503.21747v1 Announce Type: cross 摘要:物体中心的表示学习旨在将视觉场景分解为固定大小的向量,称为“槽”或“对象文件”,其中每个槽捕捉到一个不同的对象。当前的物体中心模型在物体发现方面已经在多个领域,包括复杂的现实世界场景中取得了显著的成功。然而,这些模型面临一个关键的限制:缺乏可控性。具体来说,当前的物体中心模型基于它们对物体的预先理解来学习表示,而不允许用户输入来指导哪些对象被表示。在物体中心模型中引入可控性可以解锁一系列有用的功能,例如从场景中提取实例特定的表示能力。在本文中,我们提出了一种新颖的方法,通过将槽条件化于语言描述以实现用户导向的槽表示控制。我们提出的可控物体中心表示学习方法,称为CTRL-O,能够在不需要遮罩监督的情况下在复杂的现实世界场景中实现目标对象-语言绑定。接下来,我们在两个下游视觉语言任务上应用了这些可控的槽表示:文本生成图像和视觉问答。所提出的方法能够实现实例特定的文本生成图像,并且在视觉问答方面也取得了较强的效果。