摘要
arXiv:2504.00356v1 交叉训练类型: cross
摘要: 零样本图像分割(RIS)在段任何模型(SAM)和CLIP等模型的驱动下取得了显著进步,使得视觉和文本信息对齐方面取得了实质性的进展。尽管取得了这些成功,但对于精确和高质量的掩码区域表示的提取仍然是一个关键挑战,限制了RIS任务的全部潜力。在本文中,我们介绍了一种无需训练的混合全局-局部特征提取方法,该方法将详细的掩码特定特征与周围区域的上下文信息结合起来,增强掩码区域表示。为了进一步加强掩码区域与引言表达之间的对齐,我们提出了一种空间引导增强策略,提高空间一致性,这对于准确定位描述的区域至关重要。通过结合多种空间线索,该方法有助于实现更稳健和精确的引言分割。在标准RIS基准上的广泛实验表明,我们的方法在现有的零样本RIS模型中显著表现更优,实现了显著的性能提升。我们相信,我们的方法推进了RIS任务,并建立了一个适用于区域-文本对齐的多功能框架,为跨模态理解和交互提供了更广泛的影响。代码可参见 https://github.com/fhgyuanshen/HybridGL 。