LLM2D

摘要

预训练视觉语言模型（VLMs），例如CLIP，越来越多地用于弥合开放词汇图像分割中开放词汇和封闭词汇识别之间的差距。由于VLMs通常使用低分辨率图像（例如，$224\times224$）进行预训练，因此大多数先前的方法仅对降尺度图像进行操作。我们质疑这种设计，因为低分辨率特征往往无法保留精细细节。一个典型的解决方案是为高分辨率输入采用额外的图像主干网络，但这也会带来大量的计算开销。因此，我们提出了MROVSeg，这是一种使用单个预训练CLIP主干网络进行开放词汇图像分割的多分辨率训练框架，它使用滑动窗口将高分辨率输入切分成均匀的块，每个块都与经过良好训练的图像编码器的输入大小匹配。其关键组件包括一个多分辨率适配器，它通过与多分辨率特征交互来恢复空间几何形状并掌握跨块的局部全局对应关系。为了实现精确的分割，我们引入了多粒度掩码注意力机制，以从多分辨率CLIP特征到对象查询聚合多粒度语义。通过全面的实验，我们证明了MROVSeg在成熟的开放词汇图像分割基准测试上的优越性，为开放词汇图像分割树立了新的标准。