LLM2D
基于交互式分割benchmarking视觉基础模型的特征上采样方法
Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation
作者: Volodymyr Havrylov, Haiwen Huang, Dan Zhang, Andreas Geiger
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02075v1

摘要

arXiv:2505.02075v1 交叉类型: 摘要:视觉基础模型(VFMs)是大规模的预训练模型,作为各种计算机视觉任务的一般用途骨干网络。随着VFMs的普及,越来越多的人对其在密集预测任务中的有效性产生了兴趣。然而,VFMs通常生成低分辨率的特征,限制了它们在这种情境下的直接应用。解决这一局限的一种方法是采用一种任务无关的特征上采样模块,以提高VFMs特征的分辨率。为了评估这种方法的有效性,我们研究了交互分割(IS)作为新的基准,用于评估在VFMs上进行特征上采样方法的效果。由于其固有的多模态输入,即图像和一系列用户定义的点击,以及密集的掩码输出,IS创造了一个充满挑战的环境,需要全面的视觉场景理解。我们的基准实验表明,选择合适的上采样策略显著提高了VFMs特征的质量。代码已发布于https://github.com/havrylovv/iSegProbe