LLM2D

摘要

arXiv:2502.04098v1 交叉公告类型摘要：视觉语言模型（VLMs）在视觉问答和图像字幕等任务中表现出色。然而，VLMs 往往受限于它们使用预训练图像编码器（如CLIP），这导致了图像理解错误，从而影响整体性能。此外，实际应用通常要求模型能够不断适应新数据，而这些数据往往数量有限。为解决这些问题，我们提出了一种名为LoRSU（低秩适应与结构化更新）的稳健且计算效率高的方法，用于选择性地更新VLM中的图像编码器。LoRSU引入了结构化和局部化的参数更新，有效纠正了之前错误的数据表现，同时保持了模型的总体鲁棒性。我们的方法利用理论洞见来识别并更新最关键参数，实现了显著的资源效率。具体而言，我们证明LoRSU相比全面更新VLM在计算开销上降低了超过25倍，而不牺牲性能。在少量样本连续学习设置下的图像字幕任务实验结果验证了LoRSU的可扩展性、效率和有效性，使其成为资源受限环境中图像编码器适应的有力解决方案。