LLM2D
视觉-语言模型在物体检测和分割中的应用:综述与评估
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation
作者: Yongchao Feng, Yajie Liu, Shuai Yang, Wenrui Cai, Jinqing Zhang, Qiqi Zhan, Ziyue Huang, Hongxi Yan, Qiao Wan, Chenguang Liu, Junzhe Wang, Jiahui Lv, Ziqi Liu, Tengyuan Shi, Qingjie Liu, Yunhong Wang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09480v1

摘要

arXiv:2504.09480v1 类别:跨领域 摘要:视觉-语言模型(VLM)在开放词汇(OV)对象检测和分割任务中得到了广泛应用。尽管它们在OV相关的任务中显示出潜力,但它们在传统视觉任务中的有效性至今尚未得到评估。在本文中,我们系统地回顾了基于VLM的检测和分割,将VLM视为基础模型,并首次对多个下游任务进行全面评估:1)评估跨越八个检测场景(封闭集检测、领域适应、密集对象等)和八个分割场景(少量样本、开放世界、小型对象等),揭示了各种VLM架构在不同任务中的性能优势和局限性。2)对于检测任务,我们根据三种微调粒度评估VLMs:零预测、视觉微调和文本提示,并进一步分析不同微调策略在不同任务中的性能影响。3)基于实证发现,我们深入分析了任务特征、模型架构和训练方法之间的关联,为未来的VLM设计提供见解。4)我们认为,本研究对于从事计算机视觉、多模态学习和视觉基础模型领域的模式识别专家具有价值,通过介绍问题并使他们熟悉当前的研究进展,为未来的研究提供有希望的方向。与此回顾和评估相关的一个项目已在https://github.com/better-chao/perceptual_abilities_evaluation 创建。