LLM2D

摘要

arXiv:2502.04098v2 宣告类型: replace-cross 摘要：视觉-语言模型（VLMs）在视觉问答和图像字幕等任务中表现出色。然而，这些模型常受限于所使用的预训练图像编码器，如CLIP，这导致了图像理解错误，从而限制了整体性能。此外，实际应用往往要求模型能够持续适应不断增加的新数据，而这些新数据通常是有限的。为解决这一问题，我们提出了LoRSU（低秩适应与结构更新），这是一种稳健且计算高效的模型选择性更新图像编码器的方法。LoRSU引入了结构化和局部参数更新，有效地纠正了之前错误的数据表现，同时保持了模型的总体鲁棒性。我们的方法利用理论洞察来识别并仅更新最关键的参数，实现了显著的资源效率。具体来说，我们展示了LoRSU相比完整VLM更新的计算开销降低了25倍以上，但并未牺牲性能。在少量样本连续学习设置下的视觉问答任务实验结果验证了LoRSU的可扩展性、效率和有效性，这使其成为资源受限环境中图像编码器适应的有吸引力的解决方案。