LLM2D
视觉识别中参数高效迁移学习 (PETL) 的统一实证研究:经验教训
Lessons Learned from a Unifying Empirical Study of Parameter-Efficient Transfer Learning (PETL) in Visual Recognition
作者: Zheda Mai, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Li Zhang, Wei-Lun Chao
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.16434v2

摘要

近年来,参数高效迁移学习(PETL)因预训练模型规模不断扩大以及对下游任务进行微调 (FT) 以获得更高性能的需求而备受关注。这种社区范围内的热潮催生了大量方法。然而,缺乏对这些方法的性能和适用场景进行系统性研究,导致何时应用 PETL 以及使用哪种方法等问题仍然悬而未决。在本文中,我们对 Vision Transformers 上下文中具有代表性的 PETL 方法进行了统一的实证研究。我们系统地调整了它们的超参数,以公平地比较它们在下游任务上的准确性。我们的研究不仅提供了一份有价值的用户指南,而且还揭示了一些新的见解。首先,如果仔细调整,不同的 PETL 方法可以在低样本基准 VTAB-1K 上获得相似的准确率。这包括像 FT 偏差项这样被认为较差的简单方法。其次,尽管准确率相似,但我们发现 PETL 方法犯了不同的错误并做出了不同的高置信度预测,这可能是由于它们不同的归纳偏差。这种不一致(或互补性)为集成方法提供了机会,我们对此进行了初步尝试。第三,超越常用的低样本任务,我们发现 PETL 在多样本情况下也很有用——它使用更少的可学习参数,实现了与全 FT 相当甚至更好的准确率。最后但并非最不重要的是,我们研究了 PETL 保留预训练模型对分布变化(例如,CLIP 主干)的鲁棒性的能力。也许并不令人惊讶的是,PETL 方法优于单独的全 FT。然而,通过权重空间集成,完全微调的模型可以更好地平衡目标(即下游)分布和分布变化性能,这为 PETL 的未来研究方向指明了方向。