LLM2D

摘要

arXiv:2503.19647v1 提交类型：交叉领域摘要：大型Vision-Language模型（VLMs）越来越被视为可以通过提示进行指令以解决多样化任务的基础模型，而无需专门的训练。我们探讨了一个看似明显的问题：如何有效地提示VLMs进行语义分割。为此，我们系统地评估了几种最新模型，在由文本或视觉提示引导的情况下，在分布外的MESS数据集集合上的分割性能。我们引入了一种可扩展的提示方案——少量示例提示的语义分割，该方案借鉴了开放词汇分割和少数样本学习的理念。结果显示，在交并比指标上，VLMs比专门针对特定分割任务进行训练的模型落后约30%。此外，我们发现文本提示与视觉提示是互补的：两种模式中的每一种都会在其他模式可以解决的许多例子上失效。我们的分析表明，能够预判最有效的提示模态可以提高11%的性能。受我们的发现启发，我们提出了PromptMatcher——一个极为简单的无需训练的基本方法，将文本和视觉提示相结合，在少量示例提示的语义分割上取得了最先进的结果，比最佳文本提示的VLM高出2.5%，比最佳视觉提示的VLM高出3.5%。