LLM2D
ExPLoRA:参数高效的扩展预训练,用于在领域迁移下调整视觉Transformer
ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts
作者: Samar Khanna, Medhanie Irgau, David B. Lobell, Stefano Ermon
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2406.10973v2

摘要

参数高效微调(PEFT)技术,如低秩自适应(LoRA),可以有效地将大型预训练基础模型适应到下游任务,只需使用原始可训练权重的很小一部分(0.1%-10%)。PEFT的一个未充分探索的问题是在没有监督标签的情况下扩展预训练阶段;也就是说,我们能否通过在这个新领域上进行高效的自监督预训练,将预训练的基础模型适应到一个新的领域?在这项工作中,我们介绍了 ExPLoRA,这是一种高度有效的技术,可以改善预训练视觉转换器 (ViT) 在域偏移情况下的迁移学习。ExPLoRA 使用在大型自然图像数据集(如 DinoV2 或 MAE)上预训练的权重初始化 ViT,然后在新的领域继续进行无监督的预训练目标,解冻 1-2 个预训练的 ViT 块,并使用 LoRA 调整所有其他层。然后,我们仅使用 LoRA 在这个新领域上对得到的模型进行微调,以进行监督学习。我们的实验表明,在卫星图像上取得了最先进的结果,甚至超过了完全预训练和微调 ViT。使用 DinoV2 训练目标,我们证明在下游任务中线性探测 top-1 准确率提高了 7.5%,同时使用的参数数量不到先前完全微调的最先进方法的 10%。我们的消融研究证实了我们的方法相对于其他基线的有效性,包括 PEFT 和解冻更多 ViT 块。代码可在项目网站上获取:https://samar-khanna.github.io/ExPLoRA/