LLM2D

摘要

arXiv:2503.19311v1 宣传类型: cross 摘要：本文旨在解决处理长文本的技术瓶颈以及在遥感视觉语言基础模型(VLFM)中由不足的短文本信息引起的“幻觉”问题。我们提出了一种新的视觉语言基础模型LRSCLIP和一个多模态数据集LRS2M。主要贡献如下：(1) 通过整合多源遥感数据并采用大规模语言模型标注策略，我们构建了LRS2M数据集，该数据集包含了200万张图文对，首次提供了短文本和长文本，从而解决了现有数据集在语义粒度限制方面的问题；(2) LRSCLIP架构的设计基于Long-CLIP的KPS模块，该模块扩展了CLIP的文本处理能力，并通过双文本损失加权机制实现了细粒度的跨模态特征对齐。实验结果显示，在零样本长文本跨模态检索任务中，LRSCLIP的检索准确性相较于Long-CLIP基线提高了10%-20%。在零样本短文本跨模态检索任务中，LRSCLIP相较于当前最佳模型GeoRSCLIP，在RSITMD上的Text to Image R@1、Image to Text R@1和mR分别提高了0.17%、0.67%和0.92%，在RSICD上分别提高了0.04%、2.93%和1.28%。在零样本图像分类任务（平均准确率=75.75%）和语义定位任务（Rmi=0.7653）中，LRSCLIP均实现了最先进的性能。这些结果验证了LRSCLIP在细粒度语义理解和全局特征匹配上的双重优势。本研究为遥感多模态学习提供了新的基准模型和数据支持。相关代码已开源，可在https://github.com/MitsuiChen14/LRSCLIP获取。