摘要
arXiv:2504.09480v1 类别:跨领域
摘要:视觉-语言模型(VLM)在开放词汇(OV)对象检测和分割任务中得到了广泛应用。尽管它们在OV相关的任务中显示出潜力,但它们在传统视觉任务中的有效性至今尚未得到评估。在本文中,我们系统地回顾了基于VLM的检测和分割,将VLM视为基础模型,并首次对多个下游任务进行全面评估:1)评估跨越八个检测场景(封闭集检测、领域适应、密集对象等)和八个分割场景(少量样本、开放世界、小型对象等),揭示了各种VLM架构在不同任务中的性能优势和局限性。2)对于检测任务,我们根据三种微调粒度评估VLMs:零预测、视觉微调和文本提示,并进一步分析不同微调策略在不同任务中的性能影响。3)基于实证发现,我们深入分析了任务特征、模型架构和训练方法之间的关联,为未来的VLM设计提供见解。4)我们认为,本研究对于从事计算机视觉、多模态学习和视觉基础模型领域的模式识别专家具有价值,通过介绍问题并使他们熟悉当前的研究进展,为未来的研究提供有希望的方向。与此回顾和评估相关的一个项目已在https://github.com/better-chao/perceptual_abilities_evaluation 创建。