LLM2D
近的、远的:patches排序增强视觉基础模型的场景理解
Near, far: Patch-ordering enhances vision foundation models' scene understanding
作者: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2408.11054v2

摘要

arXiv:2408.11054v2 自监督训练损失类型: replace-cross 摘要: 我们引入了名为 NeCo: Patch Neighbor Consistency 的一种新颖的自监督训练损失,该方法在学生模型和教师模型之间强制实现了补丁级别最近邻的一致性。与仅提供二进制学习信号(即 '吸引' 和 '排斥')的对比方法相比,这种方法受益于对参考补丁按空间密集特征进行排序的更细致的学习信号。我们的方法利用差分排序技术,应用于预训练表示之上,以启动学习信号并进一步改进它们。尽管仅在单个 GPU 上需要 19 个小时,这种方法仍能在各种模型和数据集中取得卓越的性能。此外,这种方法生成了高质量的密集特征编码器,并在 ADE20k 和 Pascal VOC 的无参数上下文语义分割、COCO-Things 和 -Stuff 的线性分割评估以及 SPair-71k 中多视图一致性下的三维理解方面,建立了多个新的最先进成果,分别提高了 5.5%、6%、7.2% 和 5.7%,以及超过 1.5%。