LLM2D
基于简单参数高效修改的视觉语言模型微调
Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification
作者: Ming Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, Masashi Sugiyama
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16718v1

摘要

近年来,在微调视觉语言模型 (VLMs) 方面取得了进展,见证了提示微调和适配器微调的成功,而经典模型对固有参数的微调似乎被忽视了。人们认为,用少量样本微调 VLMs 的参数会破坏预训练的知识,因为即使微调 CLIP 模型也会降低性能。在本文中,我们重新审视了这一观点,并提出了一个新的视角:微调特定参数而不是所有参数将揭示经典模型微调在 VLMs 上的强大功能。通过我们的细致研究,我们提出了 ClipFit,这是一种简单而有效的方法,可以微调 CLIP,而无需引入任何额外参数的开销。我们证明,仅通过微调特定偏差项和归一化层,ClipFit 可以将零样本 CLIP 的性能提高 7.27% 的平均谐波平均精度。最后,为了了解 CLIPFit 中的微调如何影响预训练模型,我们针对内部参数和表示的变化进行了广泛的实验分析。我们发现,低级文本偏差层和第一层归一化层的变化比其他层要大得多。代码可在以下地址获取:\url{https://github.com/minglllli/CLIPFit}。