LLM2D
MC-LLaVA:多概念个性化视觉语言模型
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
作者: Ruichuan An, Sihan Yang, Ming Lu, Renrui Zhang, Kai Zeng, Yulin Luo, Jiajun Cao, Hao Liang, Ying Chen, Qi She, Shanghang Zhang, Wentao Zhang
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18854v1

摘要

arXiv:2503.18854v1 介绍类型: cross 摘要: 当前的视觉-语言模型(VLMs)在各种任务上展现出了卓越的能力,例如视觉问答。为了提升用户体验,近期的研究致力于使VLMs个性化以理解用户提供的概念。然而,这些研究主要集中在单一概念的个性化上,忽视了多个概念的存在及其相互作用,这限制了其在实际中的应用。本文提出了第一个多概念个性化范式MC-LLaVA。具体来说,MC-LLaVA采用了多概念指令微调策略,在单个训练步骤中有效整合了多个概念。为了降低联合训练相关的成本,我们提出了一种个性化文本提示,使用视觉令牌信息来初始化概念令牌。此外,在推理过程中,我们引入了个性化的视觉提示,通过聚合位置置信图来增强识别和绑定能力。为了推进多概念个性化研究,我们进一步贡献了一个高质量的指令微调数据集。我们仔细收集了电影中包含多个角色和对象的图像,并手动生成了多概念场景下的问题-答案样本,这些样本具有优异的多样性。全面的定性和定量实验表明,MC-LLaVA可以实现令人印象深刻的多概念个性化响应,为VLMs成为更好用户特定的助手铺平了道路。代码和数据集将在以下链接公开:$\href{https://github.com/arctanxarc/MC-LLaVA}{https://github.com/arctanxarc/MC-LLaVA}$。