LLM2D
ExPLoRA:在域移位下适配视觉Transformer的参数高效扩展预训练
ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts
作者: Samar Khanna, Medhanie Irgau, David B. Lobell, Stefano Ermon
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2406.10973v3

摘要

arXiv:2406.10973v3 宣称类型:替换交叉 摘要:参数高效微调(PEFT)技术,如低秩适应(LoRA)能够仅使用原始可训练权重的很小一部分(0.1%-10%)有效地将大型预训练基础模型适配到下游任务。PEFT的一个未被充分探索的问题是如何在没有监督标签的情况下扩展预训练阶段;也就是说,在新领域中,我们能否利用高效的无监督预训练来适配预训练的基础模型?在本文中,我们提出了ExPLoRA,这是一种高效的技术,用于在领域转换下提高预训练视觉变换器(ViTs)的迁移学习性能。通过在大规模自然图像数据集(如DinoV2或MAE)上初始化ViT,并在其上继续进行无监督预训练目标的训练,ExPLoRA解冻1-2个预训练ViT块,并使用LoRA调整所有其他层。然后,我们仅使用LoRA对由此生成的模型进行微调,以用于监督学习的新领域。我们的实验结果在卫星图像上展示了最先进的成果,甚至超过了完全预训练和微调ViTs的方法。使用DinoV2训练目标,我们证明在下游任务的线性探测任务中,相比于之前已有的全微调方法,我们使用的参数数量不到10%,但最高可提高8%的顶级准确性。我们的消融实验证实了我们方法的有效性,优于其他基线,包括PEFT和其他更多的ViT块。源代码可在项目网站上获得:https://samar-khanna.github.io/ExPLoRA/