LLM2D
LRSCLIP:一种用于对齐遥感图像与长文本的基础模型
LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text
作者: Weizhi Chen, Jingbo Chen, Yupeng Deng, Jiansheng Chen, Yuman Feng, Zhihao Xi, Diyou Liu, Kai Li, Yu Meng
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19311v1

摘要

arXiv:2503.19311v1 宣传类型: cross 摘要:本文旨在解决处理长文本的技术瓶颈以及在遥感视觉语言基础模型(VLFM)中由不足的短文本信息引起的“幻觉”问题。我们提出了一种新的视觉语言基础模型LRSCLIP和一个多模态数据集LRS2M。主要贡献如下:(1) 通过整合多源遥感数据并采用大规模语言模型标注策略,我们构建了LRS2M数据集,该数据集包含了200万张图文对,首次提供了短文本和长文本,从而解决了现有数据集在语义粒度限制方面的问题;(2) LRSCLIP架构的设计基于Long-CLIP的KPS模块,该模块扩展了CLIP的文本处理能力,并通过双文本损失加权机制实现了细粒度的跨模态特征对齐。实验结果显示,在零样本长文本跨模态检索任务中,LRSCLIP的检索准确性相较于Long-CLIP基线提高了10%-20%。在零样本短文本跨模态检索任务中,LRSCLIP相较于当前最佳模型GeoRSCLIP,在RSITMD上的Text to Image R@1、Image to Text R@1和mR分别提高了0.17%、0.67%和0.92%,在RSICD上分别提高了0.04%、2.93%和1.28%。在零样本图像分类任务(平均准确率=75.75%)和语义定位任务(Rmi=0.7653)中,LRSCLIP均实现了最先进的性能。这些结果验证了LRSCLIP在细粒度语义理解和全局特征匹配上的双重优势。本研究为遥感多模态学习提供了新的基准模型和数据支持。相关代码已开源,可在https://github.com/MitsuiChen14/LRSCLIP获取。