LLM2D

摘要

arXiv:2505.01694v1 交叉类型公告摘要：有效地适应大型视觉-语言模型（VLMs）如CLIP进行少样本学习，在保留预训练知识和任务特定适应之间提出了挑战。现有方法往往忽视了VLM潜在空间内的有价值的结构信息。我们介绍了一种拓扑意识调优方法，将表示拓扑分歧（RTD）集成到任务残差（TR）框架中。通过使用结合RTD和交叉熵损失显式对齐视觉和文本表示的拓扑结构，同时冻结基础VLM编码器，我们的方法提高了少样本性能。我们仅优化轻量级的任务残差参数，有效地利用了拓扑信息。在6个不同的基准数据集中，我们的方法展示了显著的提升，在少样本设置中相对于相关的基线方法，平均准确率提高了1-2%。本研究提出了一个有效策略，通过引入拓扑对齐，来增强VLM的少样本能力。