摘要
当前的大型多模态模型(LMM)在接地方面面临挑战,这要求模型将语言组件与视觉实体关联起来。与对 LMM 进行微调以获得额外接地监督的常见做法相反,我们发现接地能力实际上可以在没有显式接地监督的情况下训练的 LMM 中出现。为了揭示这种新出现的接地能力,我们引入了一种“注意和分割”方法,该方法利用来自标准 LMM 的注意力图来执行像素级分割。此外,为了增强接地能力,我们提出了 DIFFLMM,一种利用基于扩散的视觉编码器(而不是标准 CLIP 视觉编码器)并使用相同的弱监督进行训练的 LMM。由于不受接地特定监督数据的偏差和有限规模的限制,我们的方法更具通用性和可扩展性。与分别接地 LMM 和通用 LMM 相比,我们在接地特定和通用视觉问答基准测试中都取得了具有竞争力的性能。值得注意的是,在没有接地监督的情况下,我们在接地对话生成中实现了 44.2 的接地掩码召回率,优于经过广泛监督的模型 GLaMM。项目页面:https://groundLMM.github.io。