LLM2D

摘要

arXiv:2504.00356v1 交叉训练类型: cross 摘要: 零样本图像分割（RIS）在段任何模型（SAM）和CLIP等模型的驱动下取得了显著进步，使得视觉和文本信息对齐方面取得了实质性的进展。尽管取得了这些成功，但对于精确和高质量的掩码区域表示的提取仍然是一个关键挑战，限制了RIS任务的全部潜力。在本文中，我们介绍了一种无需训练的混合全局-局部特征提取方法，该方法将详细的掩码特定特征与周围区域的上下文信息结合起来，增强掩码区域表示。为了进一步加强掩码区域与引言表达之间的对齐，我们提出了一种空间引导增强策略，提高空间一致性，这对于准确定位描述的区域至关重要。通过结合多种空间线索，该方法有助于实现更稳健和精确的引言分割。在标准RIS基准上的广泛实验表明，我们的方法在现有的零样本RIS模型中显著表现更优，实现了显著的性能提升。我们相信，我们的方法推进了RIS任务，并建立了一个适用于区域-文本对齐的多功能框架，为跨模态理解和交互提供了更广泛的影响。代码可参见 https://github.com/fhgyuanshen/HybridGL 。