摘要
arXiv:2408.11449v2 通知类型: 替换
摘要:像 CLIP 这样的视觉语言模型在图像分类任务中通过文本和图像对齐展示了令人印象深刻的零样本能力,但在性能上却不如针对特定任务的专家模型。相反,专家模型在它们的专业领域表现出色,但对于新任务缺乏零样本能力。如何同时获得专家模型的高性能和零样本能力是一个重要的研究方向。在本文中,我们尝试通过构建模型枢纽并使用模型标签将模型与其功能进行对齐,证明可以通过有效地选择和重用枢纽中的模型以零样本的方式解决新任务。我们引入了一种新的范式,模型标签学习(Model Label Learning, MLL),通过语义有向无环图(SDAG)弥合了模型与其实现功能之间的差距,并利用分类头部组合优化算法(CHCO)选择适合新任务的模型。与基础模型范式相比,MLL 更具成本效益且更具可扩展性,即零样本能力随着模型枢纽规模的扩大而增长。在七个真实世界数据集上的实验验证了 MLL 的有效性和效率,证明了专家模型可以有效地被重用以应对零样本任务。我们的代码将公开发布。