LLM2D
MC-LLaVA:多概念个性化视觉语言模型
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
作者: Ruichuan An, Sihan Yang, Ming Lu, Renrui Zhang, Kai Zeng, Yulin Luo, Jiajun Cao, Hao Liang, Ying Chen, Qi She, Shanghang Zhang, Wentao Zhang
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2411.11706v3

摘要

arXiv:2411.11706v3 公告类型: 替换-交叉 摘要:当前的视觉-语言模型(VLMs)在诸如视觉问答等多样化的任务中显示出卓越的能力。为了提升用户体验,最近的研究探讨了VLM的个性化,以理解用户提供的概念。然而,这些研究主要集中在单概念个性化上,忽视了多个概念的存在及其相互作用,这限制了其在现实世界中的应用。本文提出了一种全新的多概念个性化范式,即MC-LLaVA。具体而言,MC-LLaVA采用了一种多概念指令微调策略,有效地在单一训练步骤中整合了多个概念。为了降低联合训练相关的成本,我们提出了一种个性化的文本提示,该提示使用视觉标记信息来初始化概念标记。此外,在推理过程中,我们引入了个性化的视觉提示,通过聚合位置置信图来增强识别能力和定位能力。为了推进多概念个性化研究,我们进一步贡献了一个高质量的指令微调数据集。我们仔细收集了来自电影的多个人物和对象的图像,并人工生成了多概念场景下的问题-答案样本,这些样本具有更高的多样性。全面的定性和定量实验表明,MC-LLaVA能够实现令人印象深刻的多概念个性化响应,为使VLMs成为更好的用户特定助手铺平了道路。代码和数据集将在 https://github.com/arctanxarc/MC-LLaVA 公开可获取。