LLM2D

摘要

近年来，CLIP 等视觉语言模型（VLM）在各种下游任务中展现出了非凡的适用性，包括零样本图像分类。最近，利用提示或适配器进行高效迁移学习 (ETL) 越来越受到关注，因为它们可以有效地适应下游任务。然而，以往的研究忽略了不同下游任务迁移难度的挑战。在本文中，我们对每种 ETL 方法在迁移难度方面的表现进行了实证分析。我们的观察表明，在难度较高的领域中，利用视觉提示和文本适配器对于可适应性和泛化能力至关重要。此外，通过应用自适应集成方法，将任务适应的 VLM 与预训练的 VLM 集成，并在难度较低的领域中战略性地利用更多通用知识，而在难度较高的领域中利用更少的通用知识，我们可以在两种类型的领域中始终提高性能。基于这些观察结果，我们提出了一种自适应集成方法，该方法将视觉提示和文本适配器与预训练的 VLM 相结合，并根据迁移难度进行调整，以实现任何目标领域的最佳性能。通过对广泛基准的实验，我们的方法始终优于所有基线，特别是在看不见的任务上，证明了其有效性。