LLM2D

摘要

大型视觉语言模型（LVLM）在任意粒度下基于自由文本检测所有物体方面，复制人类固有的能力仍然是一个巨大的挑战。现有的LVLM主要局限于定位单个预先存在的物体。这一限制导致模型设计上的妥协，需要引入视觉专家模型或定制的头结构。除了这些限制之外，我们的研究揭示了LVLM在基本物体感知方面的能力，使其能够准确识别和定位感兴趣的物体。基于这一见解，我们引入了一个新颖的语言提示定位数据集，以充分释放LVLM在细粒度物体感知和精确位置感知方面的能力。更重要的是，我们提出了Griffon，一个纯粹基于LVLM的基线模型，它不引入任何特殊标记、专家模型或额外的检测模块。它通过统一各种与定位相关的场景中的数据格式，并通过精心设计的管道进行端到端训练，从而与流行的LVLM保持一致的结构。全面的实验表明，Griffon不仅在细粒度的RefCOCO系列和Flickr30K Entities上取得了最先进的性能，而且在检测基准MSCOCO上也接近专家模型Faster RCNN的能力。数据、代码和模型已发布在https://github.com/jefferyZhan/Griffon。