摘要
arXiv:2503.19647v1 提交类型:交叉领域
摘要:大型Vision-Language模型(VLMs)越来越被视为可以通过提示进行指令以解决多样化任务的基础模型,而无需专门的训练。我们探讨了一个看似明显的问题:如何有效地提示VLMs进行语义分割。为此,我们系统地评估了几种最新模型,在由文本或视觉提示引导的情况下,在分布外的MESS数据集集合上的分割性能。我们引入了一种可扩展的提示方案——少量示例提示的语义分割,该方案借鉴了开放词汇分割和少数样本学习的理念。结果显示,在交并比指标上,VLMs比专门针对特定分割任务进行训练的模型落后约30%。此外,我们发现文本提示与视觉提示是互补的:两种模式中的每一种都会在其他模式可以解决的许多例子上失效。我们的分析表明,能够预判最有效的提示模态可以提高11%的性能。受我们的发现启发,我们提出了PromptMatcher——一个极为简单的无需训练的基本方法,将文本和视觉提示相结合,在少量示例提示的语义分割上取得了最先进的结果,比最佳文本提示的VLM高出2.5%,比最佳视觉提示的VLM高出3.5%。