LLM2D

摘要

近年来，在微调视觉语言模型 (VLMs) 方面取得了进展，见证了提示微调和适配器微调的成功，而经典模型对固有参数的微调似乎被忽视了。人们认为，用少量样本微调 VLMs 的参数会破坏预训练的知识，因为即使微调 CLIP 模型也会降低性能。在本文中，我们重新审视了这一观点，并提出了一个新的视角：微调特定参数而不是所有参数将揭示经典模型微调在 VLMs 上的强大功能。通过我们的细致研究，我们提出了 ClipFit，这是一种简单而有效的方法，可以微调 CLIP，而无需引入任何额外参数的开销。我们证明，仅通过微调特定偏差项和归一化层，ClipFit 可以将零样本 CLIP 的性能提高 7.27% 的平均谐波平均精度。最后，为了了解 CLIPFit 中的微调如何影响预训练模型，我们针对内部参数和表示的变化进行了广泛的实验分析。我们发现，低级文本偏差层和第一层归一化层的变化比其他层要大得多。代码可在以下地址获取：\url{https://github.com/minglllli/CLIPFit}。