摘要
arXiv:2409.16434v4 宣告类型: replace-cross
摘要:参数高效微调(PEFT)因其预训练模型规模的扩大以及需要对其进行微调以获得更好的下游性能而引起了广泛关注。尽管出现了许多新的PEFT方法,但对这些方法的性能和适用场景缺乏系统的研究,留下了很多问题,如“何时应用PEFT”和“应使用哪种方法”,特别是在视觉识别领域。在本文中,我们对视觉变换器(Vision Transformers)的代表性PEFT方法进行了统一的经验研究。我们系统地调整了它们的超参数,以公平比较其在下游任务上的准确性。我们的研究提供了一种实用的用户指南,并揭示了一些新的见解。首先,如果仔细调整,不同的PEFT方法在低样本量基准VTAB-1K中的准确性几乎是相同的。这包括一些曾被认为效果较差的简单方法,如仅微调偏差项。其次,尽管准确性相似,我们发现不同的PEFT方法在错误类型和高置信度预测方面有所不同,这可能是由于它们不同的归纳偏置所致。这种不一致性(或互补性)为集成方法提供了机会,我们也进行了初步尝试。第三,超越常用的低样本量任务,我们发现PEFT在许多样本量的场景中也非常有用,其准确性与完整的微调相当或更好,且使用的参数要少得多。最后,我们研究了PEFT在保持预训练模型对分布迁移鲁棒性(例如,CLIP)的能力。不出所料,PEFT方法优于单独的完整微调。然而,通过权重空间集成,完整微调能够在目标分布和分布迁移性能之间取得更好的平衡,这为鲁棒PEFT的未来研究方向提供了指引。