摘要
arXiv:2501.18271v2 宣告类型: 更换交叉
摘要:预训练视觉-语言模型(VLMs)在各种视觉任务中越来越受欢迎,且已经发布了多种开源的VLM变体。然而,选择最适合特定下游任务的预训练VLM仍然是有挑战的,因为没有单一的VLM能够在一个任务的所有下游任务中都表现出色,而且由于时间和数据的限制,评估所有可用的VLM是不可能的。为了解决这个问题,本文提出了一种新的范式来选择和重用水的VLM进行下游任务,称为模型标签学习(MLL)。该提议包含三个关键模块:\emph{模型标签化},它为每个VLM分配标签以描述其专长和实用性;\emph{模型选择},它将目标任务的需求与模型标签匹配;以及\emph{模型重用},它以集成的方式应用所选的VLM到目标任务。该提议高度计算效率且可扩展,因为模型标签化过程与目标任务独立,能力可以随着候选VLM的数量增加而增长。我们还介绍了一个新的基准来评估VLM选择方法,包括49个VLM和17个目标任务数据集。实验结果清楚地表明了所提出的方法在选择和重用水的VLM方面的有效性。