摘要
arXiv:2502.04098v1 交叉公告类型
摘要:视觉语言模型(VLMs)在视觉问答和图像字幕等任务中表现出色。然而,VLMs 往往受限于它们使用预训练图像编码器(如CLIP),这导致了图像理解错误,从而影响整体性能。此外,实际应用通常要求模型能够不断适应新数据,而这些数据往往数量有限。为解决这些问题,我们提出了一种名为LoRSU(低秩适应与结构化更新)的稳健且计算效率高的方法,用于选择性地更新VLM中的图像编码器。LoRSU引入了结构化和局部化的参数更新,有效纠正了之前错误的数据表现,同时保持了模型的总体鲁棒性。我们的方法利用理论洞见来识别并更新最关键参数,实现了显著的资源效率。具体而言,我们证明LoRSU相比全面更新VLM在计算开销上降低了超过25倍,而不牺牲性能。在少量样本连续学习设置下的图像字幕任务实验结果验证了LoRSU的可扩展性、效率和有效性,使其成为资源受限环境中图像编码器适应的有力解决方案。