LLM2D
DesCLIP:通过通用属性描述实现稳健的持续适应的预训练多模态模型
DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models
作者: Chiyuan He, Zihuan Qiu, Fanman Meng, Linfeng Xu, Qingbo Wu, Hongliang Li
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00618v1

摘要

arXiv:2502.00618v1 适应类型:跨模态 摘要:视觉-语言模型(VLMs)的持续适应专注于利用跨模态预训练知识以增量方式适应扩展的下游任务和数据集,同时解决知识遗忘的挑战。现有研究往往侧重于将视觉特征与下游任务中的特定类别文本连接起来,而忽略了通用知识和专门知识之间的潜在关系。我们的研究发现,迫使模型优化不合适的视觉-文本匹配会加剧VLMs的知识遗忘。为了解决这一问题,我们提出了DesCLIP,该方法利用通用属性(GA)描述来指导特定类别对象的理解,使VLMs能够建立稳健的“视觉-GA-类别”三方关联,而不是仅仅依赖“视觉-类别”连接。具体而言,我们引入了一个语言助理,通过合适的请求提示生成具体的GA描述候选。然后,设计了一种基于锚点的嵌入过滤器来获取高度相关的GA描述嵌入,这些嵌入被用作视觉-文本实例匹配的配对文本嵌入,从而调整视觉编码器。相应地,类别文本嵌入逐渐校准,以与这些共享的GA描述嵌入对齐。广泛的实验验证了我们提出方法的进步性和有效性,全面的实证评估突显了其与现有的预训练和VLM基持续学习方法相比的优越性能。