LLM2D

摘要

arXiv:2503.23388v1 宣告类型: cross 摘要: 最近的视觉-语言模型（VLMs）在测试时适应新领域方面面临着重大挑战。虽然基于缓存的方法通过利用历史信息展现了潜力，但在缓存不可靠的特征-标签对以及在查询时不分青红皂白地使用单类别信息方面存在困难，这些都严重削弱了适应准确性。为了解决这些限制，我们提出了COSMIC（基于团块的语义多空间集成CLIP），这是一种通过多粒度、跨模态语义缓存和图基查询机制增强适应性的鲁棒测试时适应框架。我们的框架引入了两个关键创新：双语义图（DSG）和团块引导超类（CGH）。双语义图通过结合文本特征、粗粒度CLIP特征和细粒度DINOv2特征来构建互补的语义空间，以捕捉丰富的语义关系。在这些双图的基础上，团块引导超类组件利用结构化的类别关系，通过关联类别选择增强预测鲁棒性。广泛的实验表明，COSMIC在多个基准测试中表现优异，相比于最先进的方法，实现了显著的性能改进：在分布外任务上提高了15.81%，在使用CLIP RN-50进行跨域生成任务上提高了5.33%。代码可在github.com/hf618/COSMIC获取。