LLM2D
COSMIC: 基于 clique 的语义多空间集成用于稳健的 CLIP 测试时适应
COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation
作者: Fanding Huang, Jingyan Jiang, Qinting Jiang, Hebei Li, Faisal Nadeem Khan, Zhi Wang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23388v1

摘要

arXiv:2503.23388v1 宣告类型: cross 摘要: 最近的视觉-语言模型(VLMs)在测试时适应新领域方面面临着重大挑战。虽然基于缓存的方法通过利用历史信息展现了潜力,但在缓存不可靠的特征-标签对以及在查询时不分青红皂白地使用单类别信息方面存在困难,这些都严重削弱了适应准确性。为了解决这些限制,我们提出了COSMIC(基于团块的语义多空间集成CLIP),这是一种通过多粒度、跨模态语义缓存和图基查询机制增强适应性的鲁棒测试时适应框架。我们的框架引入了两个关键创新:双语义图(DSG)和团块引导超类(CGH)。双语义图通过结合文本特征、粗粒度CLIP特征和细粒度DINOv2特征来构建互补的语义空间,以捕捉丰富的语义关系。在这些双图的基础上,团块引导超类组件利用结构化的类别关系,通过关联类别选择增强预测鲁棒性。广泛的实验表明,COSMIC在多个基准测试中表现优异,相比于最先进的方法,实现了显著的性能改进:在分布外任务上提高了15.81%,在使用CLIP RN-50进行跨域生成任务上提高了5.33%。代码可在github.com/hf618/COSMIC获取。