LLM2D

摘要

arXiv:2503.18854v1 介绍类型: cross 摘要: 当前的视觉-语言模型(VLMs)在各种任务上展现出了卓越的能力，例如视觉问答。为了提升用户体验，近期的研究致力于使VLMs个性化以理解用户提供的概念。然而，这些研究主要集中在单一概念的个性化上，忽视了多个概念的存在及其相互作用，这限制了其在实际中的应用。本文提出了第一个多概念个性化范式MC-LLaVA。具体来说，MC-LLaVA采用了多概念指令微调策略，在单个训练步骤中有效整合了多个概念。为了降低联合训练相关的成本，我们提出了一种个性化文本提示，使用视觉令牌信息来初始化概念令牌。此外，在推理过程中，我们引入了个性化的视觉提示，通过聚合位置置信图来增强识别和绑定能力。为了推进多概念个性化研究，我们进一步贡献了一个高质量的指令微调数据集。我们仔细收集了电影中包含多个角色和对象的图像，并手动生成了多概念场景下的问题-答案样本，这些样本具有优异的多样性。全面的定性和定量实验表明，MC-LLaVA可以实现令人印象深刻的多概念个性化响应，为VLMs成为更好用户特定的助手铺平了道路。代码和数据集将在以下链接公开：$\href{https://github.com/arctanxarc/MC-LLaVA}{https://github.com/arctanxarc/MC-LLaVA}$。