LLM2D

摘要

arXiv:2504.09203v1 交叉类型：cross 摘要：在遥感领域，超越预定义类别的图像分割是一个关键挑战，因为在推理过程中往往会涌现出新的未知类别。开放词汇图像分割方法在传统监督分割模型中解决了这些泛化问题，同时减少了对大量精确像素标注的依赖，而这些标注既昂贵又费时。大多数开放词汇分割（OVS）方法都是为自然图像设计的，但在处理因比例变化、方向变化和复杂场景组成的遥感数据时表现出色。这需要开发专门针对遥感数据的OVS方法。在此背景下，我们提出了一种名为AerOSeg的新型OVS方法，专门针对遥感数据。首先，我们利用输入图像的多个旋转版本和领域特定的提示计算稳健的图像-文本相关特征。然后，这些特征通过空间细化和类别细化块进行细化。受到Segment Anything Model (SAM) 在多个领域的成功应用的启发，我们利用SAM特征指导相关特征的空间细化。此外，我们介绍了一种语义反投影模块和损失，以确保在分割管线中无缝传播SAM的语义信息。最后，我们使用多尺度注意力感知解码器增强细化后的相关特征，生成最终的分割图。我们使用三个基准遥感数据集：iSAID、DLRSD 和 OpenEarthMap，验证了我们的SAM指导下的开放词汇遥感分割模型。我们的模型优于现有的开放词汇分割方法，在平均 h-mIoU 上取得了2.54%的提升。