摘要
大型视觉语言模型(LVLM)在任意粒度下基于自由文本检测所有物体方面,复制人类固有的能力仍然是一个巨大的挑战。现有的LVLM主要局限于定位单个预先存在的物体。这一限制导致模型设计上的妥协,需要引入视觉专家模型或定制的头结构。除了这些限制之外,我们的研究揭示了LVLM在基本物体感知方面的能力,使其能够准确识别和定位感兴趣的物体。基于这一见解,我们引入了一个新颖的语言提示定位数据集,以充分释放LVLM在细粒度物体感知和精确位置感知方面的能力。更重要的是,我们提出了Griffon,一个纯粹基于LVLM的基线模型,它不引入任何特殊标记、专家模型或额外的检测模块。它通过统一各种与定位相关的场景中的数据格式,并通过精心设计的管道进行端到端训练,从而与流行的LVLM保持一致的结构。全面的实验表明,Griffon不仅在细粒度的RefCOCO系列和Flickr30K Entities上取得了最先进的性能,而且在检测基准MSCOCO上也接近专家模型Faster RCNN的能力。数据、代码和模型已发布在https://github.com/jefferyZhan/Griffon。