LLM2D

摘要

arXiv:2411.11706v3 公告类型: 替换-交叉摘要：当前的视觉-语言模型（VLMs）在诸如视觉问答等多样化的任务中显示出卓越的能力。为了提升用户体验，最近的研究探讨了VLM的个性化，以理解用户提供的概念。然而，这些研究主要集中在单概念个性化上，忽视了多个概念的存在及其相互作用，这限制了其在现实世界中的应用。本文提出了一种全新的多概念个性化范式，即MC-LLaVA。具体而言，MC-LLaVA采用了一种多概念指令微调策略，有效地在单一训练步骤中整合了多个概念。为了降低联合训练相关的成本，我们提出了一种个性化的文本提示，该提示使用视觉标记信息来初始化概念标记。此外，在推理过程中，我们引入了个性化的视觉提示，通过聚合位置置信图来增强识别能力和定位能力。为了推进多概念个性化研究，我们进一步贡献了一个高质量的指令微调数据集。我们仔细收集了来自电影的多个人物和对象的图像，并人工生成了多概念场景下的问题-答案样本，这些样本具有更高的多样性。全面的定性和定量实验表明，MC-LLaVA能够实现令人印象深刻的多概念个性化响应，为使VLMs成为更好的用户特定助手铺平了道路。代码和数据集将在 https://github.com/arctanxarc/MC-LLaVA 公开可获取。