摘要
arXiv:2503.12999v2 通知类型: 替换-交叉
摘要:视觉-语言模型(VLMs)在多种多模态任务中表现出色。最近,人们对提高VLMs的个性化能力产生了越来越多的兴趣。为了更好地将用户提供的概念整合到VLMs中,许多方法使用正样本和负样本来微调这些模型。然而,用户提供的正样本的稀缺性和检索到的负样本质量较低对微调构成了挑战。为揭示样本与模型性能之间的关系,我们系统地研究了正样本和负样本(易和难)以及其多样性对VLM个性化任务的影响。基于详细的分析,我们引入了Concept-as-Tree(CaT),这是一种将概念表示为树结构的方法,从而使得可以生成不同难度和多样性的正负样本,用于VLM个性化。通过精心设计的数据过滤策略,我们的CaT框架可以确保生成数据的质量,形成一个强大的流水线。我们使用各种VLM个性化基线进行了彻底的实验,以评估该流水线的有效性,从而缓解正样本的稀缺性以及负样本质量较低的问题。我们的结果显示,配备了提出的数据过滤器的CaT显著增强了MyVLM、Yo'LLaVA和MC-LLaVA数据集上VLMs的个性化能力。据我们所知,这是第一个可控的VLM个性化合成数据流水线。代码发布在 https://github.com/zengkaiya/CaT。