LLM2D

摘要

参数高效迁移学习（PETL）近年来引起了广泛关注，这是由于预训练模型规模不断扩大，以及为了获得更好的下游性能而需要对它们进行微调 (FT) 的需求。这种社区范围内的热情引发了大量方法。然而，缺乏对它们的性能和适用场景的系统研究，导致了何时应用 PETL 以及使用哪种方法等问题仍然没有得到解答。在本文中，我们对视觉Transformer背景下具有代表性的 PETL 方法进行了统一的实证研究。我们系统地调整了它们的超参数，以公平地比较它们在下游任务上的准确性。我们的研究不仅提供了一个有价值的用户指南，还揭示了一些新的见解。首先，如果仔细调整，不同的 PETL 方法可以在低样本基准 VTAB-1K 中获得相似的准确性。这包括像 FT 偏差项这样被认为效果较差的简单方法。其次，尽管准确性相似，我们发现 PETL 方法会犯不同的错误并做出不同的高置信度预测，这可能是由于它们的归纳偏差不同。这种不一致（或互补性）为集成方法提供了机会，我们对此进行了初步尝试。第三，除了常用的低样本任务之外，我们发现 PETL 在多样本模式下也同样有用——它使用少得多的可学习参数，在许多情况下实现了与全 FT 相当甚至更好的准确性。最后但并非最不重要的是，我们调查了 PETL 保留预训练模型对分布变化（例如，CLIP 主干）的鲁棒性的能力。也许并不令人惊讶，PETL 方法优于单独的全 FT。然而，通过权重空间集成，完全微调的模型可以更好地平衡目标（即下游）分布和分布变化性能，这为 PETL 的未来研究方向提供了启示。