LLM2D
跨模态双向交互遥感图像分割模型
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation
作者: Zhe Dong, Yuzhe Sun, Yanfeng Gu, Tianzhu Liu
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08613v1

摘要

给定一个自然语言表达式和一个遥感影像,遥感影像参照分割(RRSIS)的目标是生成由参照表达式识别的目标对象的像素级掩码。与自然场景相比,RRSIS 中的表达式通常涉及复杂的地理空间关系,目标对象在尺度上差异很大且缺乏视觉显著性,从而增加了实现精确分割的难度。为了解决上述挑战,提出了一种新颖的 RRSIS 框架,称为跨模态双向交互模型(CroBIM)。具体来说,设计了一个上下文感知提示调制(CAPM)模块,将空间位置关系和特定任务的知识整合到语言特征中,从而增强了捕获目标对象的能力。此外,还引入了一个语言引导特征聚合(LGFA)模块,将语言信息整合到多尺度视觉特征中,并结合注意力缺陷补偿机制来增强特征聚合。最后,设计了一个互交互解码器(MID),通过级联双向交叉注意力来增强跨模态特征对齐,从而实现精确的分割掩码预测。为了进一步促进 RRSIS 的研究,我们还构建了 RISBench,一个新的包含 52,472 个图像-语言-标签三元组的大规模基准数据集。在 RISBench 和另外两个流行数据集上的广泛基准测试表明,所提出的 CroBIM 优于现有的最先进(SOTA)方法。CroBIM 的源代码和 RISBench 数据集将在 https://github.com/HIT-SIRS/CroBIM 公开发布。