LLM2D

摘要

arXiv:2503.18854v2 宣告类型: replace-cross 摘要：当前的视觉-语言模型（VLMs）在各类任务中展现出卓越的能力，例如视觉问答。为了提升用户体验，最近的研究致力于VLM个性化，以理解用户提供的概念。然而，这些研究主要集中在单概念个性化上，忽视了多个概念的存在及其相互作用，这限制了其实用性。本文提出了一种新的多概念个性化范式，即MC-LLaVA。具体而言，MC-LLaVA采用了一种多概念指令调整策略，在单一训练步骤中有效地整合了多个概念。为了降低联合训练相关的成本，我们提出了一种个性化文本提示，利用视觉标记信息初始化概念标记。此外，在推理过程中，我们引入了一种个性化视觉提示，聚合位置置信图以增强识别和语义对应能力。为进一步推进多概念个性化研究，我们还贡献了一个高质量的指令调整数据集。我们精心收集了来自电影的多角色和物体的图像，并手动生成了多概念场景的问题-答案样本，这些样本具有出色多样性。全面的定性与定量实验表明，MC-LLaVA可以实现令人印象深刻的多概念个性化响应，为VLMs成为更好适应用户的助手铺平了道路。相关代码和数据集将在https://github.com/arctanxarc/MC-LLaVA上公开可供查阅。