摘要
arXiv:2503.18854v2 宣告类型: replace-cross
摘要:当前的视觉-语言模型(VLMs)在各类任务中展现出卓越的能力,例如视觉问答。为了提升用户体验,最近的研究致力于VLM个性化,以理解用户提供的概念。然而,这些研究主要集中在单概念个性化上,忽视了多个概念的存在及其相互作用,这限制了其实用性。本文提出了一种新的多概念个性化范式,即MC-LLaVA。具体而言,MC-LLaVA采用了一种多概念指令调整策略,在单一训练步骤中有效地整合了多个概念。为了降低联合训练相关的成本,我们提出了一种个性化文本提示,利用视觉标记信息初始化概念标记。此外,在推理过程中,我们引入了一种个性化视觉提示,聚合位置置信图以增强识别和语义对应能力。为进一步推进多概念个性化研究,我们还贡献了一个高质量的指令调整数据集。我们精心收集了来自电影的多角色和物体的图像,并手动生成了多概念场景的问题-答案样本,这些样本具有出色多样性。全面的定性与定量实验表明,MC-LLaVA可以实现令人印象深刻的多概念个性化响应,为VLMs成为更好适应用户的助手铺平了道路。相关代码和数据集将在https://github.com/arctanxarc/MC-LLaVA上公开可供查阅。