LLM2D

摘要

给定一个自然语言表达式和一个遥感影像，遥感影像参照分割（RRSIS）的目标是生成由参照表达式识别的目标对象的像素级掩码。与自然场景相比，RRSIS 中的表达式通常涉及复杂的地理空间关系，目标对象在尺度上差异很大且缺乏视觉显著性，从而增加了实现精确分割的难度。为了解决上述挑战，提出了一种新颖的 RRSIS 框架，称为跨模态双向交互模型（CroBIM）。具体来说，设计了一个上下文感知提示调制（CAPM）模块，将空间位置关系和特定任务的知识整合到语言特征中，从而增强了捕获目标对象的能力。此外，还引入了一个语言引导特征聚合（LGFA）模块，将语言信息整合到多尺度视觉特征中，并结合注意力缺陷补偿机制来增强特征聚合。最后，设计了一个互交互解码器（MID），通过级联双向交叉注意力来增强跨模态特征对齐，从而实现精确的分割掩码预测。为了进一步促进 RRSIS 的研究，我们还构建了 RISBench，一个新的包含 52,472 个图像-语言-标签三元组的大规模基准数据集。在 RISBench 和另外两个流行数据集上的广泛基准测试表明，所提出的 CroBIM 优于现有的最先进（SOTA）方法。CroBIM 的源代码和 RISBench 数据集将在 https://github.com/HIT-SIRS/CroBIM 公开发布。