LLM2D

摘要

arXiv:2501.18271v2 宣告类型: 更换交叉摘要：预训练视觉-语言模型（VLMs）在各种视觉任务中越来越受欢迎，且已经发布了多种开源的VLM变体。然而，选择最适合特定下游任务的预训练VLM仍然是有挑战的，因为没有单一的VLM能够在一个任务的所有下游任务中都表现出色，而且由于时间和数据的限制，评估所有可用的VLM是不可能的。为了解决这个问题，本文提出了一种新的范式来选择和重用水的VLM进行下游任务，称为模型标签学习（MLL）。该提议包含三个关键模块：\emph{模型标签化}，它为每个VLM分配标签以描述其专长和实用性；\emph{模型选择}，它将目标任务的需求与模型标签匹配；以及\emph{模型重用}，它以集成的方式应用所选的VLM到目标任务。该提议高度计算效率且可扩展，因为模型标签化过程与目标任务独立，能力可以随着候选VLM的数量增加而增长。我们还介绍了一个新的基准来评估VLM选择方法，包括49个VLM和17个目标任务数据集。实验结果清楚地表明了所提出的方法在选择和重用水的VLM方面的有效性。