LLM2D
学习具有类相似性知识的通用提示器以适用于CLIP
Learning Generalizable Prompt for CLIP with Class Similarity Knowledge
作者: Sehun Jung, Hyang-won Lee
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11969v1

摘要

arXiv:2502.11969v1 宣告类型: 新 摘要: 在视觉-语言模型(VLMs)中,提示调整已经显示了其在将模型适应下游任务方面的有效性。然而,学习到的提示难以泛化到未见过的类别,因为它们往往会过度拟合在提示调整过程中所针对的类别。我们通过研究失败案例发现,学习到的提示会破坏未见过类别的语义关系,生成具有不正确语义关系的文本嵌入。为了解决这一问题,我们提出了相似性对齐正则化(SAR),该方法正则化可学习的提示以保留由手工设计的提示捕获的类别间的语义关系。具体地,我们首先使用ChatGPT-4o获取与基类相关的新型类,并在其进行提示调整时利用它们作为潜在的未见过的类。然后,通过同时针对基类和新型类,SAR将可学习提示生成的文本嵌入之间的相似性关系与手工设计提示的相似性关系对齐。通过对现有提示调整方法应用SAR的广泛实验表明,其在提高对未见过类别的泛化能力方面具有有效性。