LLM2D

摘要

arXiv:2504.09480v1 类别：跨领域摘要：视觉-语言模型（VLM）在开放词汇（OV）对象检测和分割任务中得到了广泛应用。尽管它们在OV相关的任务中显示出潜力，但它们在传统视觉任务中的有效性至今尚未得到评估。在本文中，我们系统地回顾了基于VLM的检测和分割，将VLM视为基础模型，并首次对多个下游任务进行全面评估：1）评估跨越八个检测场景（封闭集检测、领域适应、密集对象等）和八个分割场景（少量样本、开放世界、小型对象等），揭示了各种VLM架构在不同任务中的性能优势和局限性。2）对于检测任务，我们根据三种微调粒度评估VLMs：零预测、视觉微调和文本提示，并进一步分析不同微调策略在不同任务中的性能影响。3）基于实证发现，我们深入分析了任务特征、模型架构和训练方法之间的关联，为未来的VLM设计提供见解。4）我们认为，本研究对于从事计算机视觉、多模态学习和视觉基础模型领域的模式识别专家具有价值，通过介绍问题并使他们熟悉当前的研究进展，为未来的研究提供有希望的方向。与此回顾和评估相关的一个项目已在https://github.com/better-chao/perceptual_abilities_evaluation 创建。