LLM2D
视觉语言模型中的高效少样本持续学习
Efficient Few-Shot Continual Learning in Vision-Language Models
作者: Aristeidis Panos, Rahaf Aljundi, Daniel Olmeda Reino, Richard E. Turner
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04098v2

摘要

arXiv:2502.04098v2 宣告类型: replace-cross 摘要:视觉-语言模型(VLMs)在视觉问答和图像字幕等任务中表现出色。然而,这些模型常受限于所使用的预训练图像编码器,如CLIP,这导致了图像理解错误,从而限制了整体性能。此外,实际应用往往要求模型能够持续适应不断增加的新数据,而这些新数据通常是有限的。为解决这一问题,我们提出了LoRSU(低秩适应与结构更新),这是一种稳健且计算高效的模型选择性更新图像编码器的方法。LoRSU引入了结构化和局部参数更新,有效地纠正了之前错误的数据表现,同时保持了模型的总体鲁棒性。我们的方法利用理论洞察来识别并仅更新最关键的参数,实现了显著的资源效率。具体来说,我们展示了LoRSU相比完整VLM更新的计算开销降低了25倍以上,但并未牺牲性能。在少量样本连续学习设置下的视觉问答任务实验结果验证了LoRSU的可扩展性、效率和有效性,这使其成为资源受限环境中图像编码器适应的有吸引力的解决方案。