摘要
arXiv:2505.01694v1 交叉类型公告
摘要:有效地适应大型视觉-语言模型(VLMs)如CLIP进行少样本学习,在保留预训练知识和任务特定适应之间提出了挑战。现有方法往往忽视了VLM潜在空间内的有价值的结构信息。我们介绍了一种拓扑意识调优方法,将表示拓扑分歧(RTD)集成到任务残差(TR)框架中。通过使用结合RTD和交叉熵损失显式对齐视觉和文本表示的拓扑结构,同时冻结基础VLM编码器,我们的方法提高了少样本性能。我们仅优化轻量级的任务残差参数,有效地利用了拓扑信息。在6个不同的基准数据集中,我们的方法展示了显著的提升,在少样本设置中相对于相关的基线方法,平均准确率提高了1-2%。本研究提出了一个有效策略,通过引入拓扑对齐,来增强VLM的少样本能力。