LLM2D

摘要

arXiv:2505.02075v1 交叉类型：摘要：视觉基础模型（VFMs）是大规模的预训练模型，作为各种计算机视觉任务的一般用途骨干网络。随着VFMs的普及，越来越多的人对其在密集预测任务中的有效性产生了兴趣。然而，VFMs通常生成低分辨率的特征，限制了它们在这种情境下的直接应用。解决这一局限的一种方法是采用一种任务无关的特征上采样模块，以提高VFMs特征的分辨率。为了评估这种方法的有效性，我们研究了交互分割（IS）作为新的基准，用于评估在VFMs上进行特征上采样方法的效果。由于其固有的多模态输入，即图像和一系列用户定义的点击，以及密集的掩码输出，IS创造了一个充满挑战的环境，需要全面的视觉场景理解。我们的基准实验表明，选择合适的上采样策略显著提高了VFMs特征的质量。代码已发布于https://github.com/havrylovv/iSegProbe