摘要
近年来,CLIP 等视觉语言模型(VLM)在各种下游任务中展现出了非凡的适用性,包括零样本图像分类。最近,利用提示或适配器进行高效迁移学习 (ETL) 越来越受到关注,因为它们可以有效地适应下游任务。然而,以往的研究忽略了不同下游任务迁移难度的挑战。在本文中,我们对每种 ETL 方法在迁移难度方面的表现进行了实证分析。我们的观察表明,在难度较高的领域中,利用视觉提示和文本适配器对于可适应性和泛化能力至关重要。此外,通过应用自适应集成方法,将任务适应的 VLM 与预训练的 VLM 集成,并在难度较低的领域中战略性地利用更多通用知识,而在难度较高的领域中利用更少的通用知识,我们可以在两种类型的领域中始终提高性能。基于这些观察结果,我们提出了一种自适应集成方法,该方法将视觉提示和文本适配器与预训练的 VLM 相结合,并根据迁移难度进行调整,以实现任何目标领域的最佳性能。通过对广泛基准的实验,我们的方法始终优于所有基线,特别是在看不见的任务上,证明了其有效性。