摘要
arXiv:2408.14744v2 公告类型: replace-cross
摘要:在遥感(RS)领域,丰富且标注良好的多媒体数据对于将复杂的视觉遥感场景与人类语言对齐至关重要,这有助于开发专门针对多样化的RS解释任务的语言视觉模型。然而,大规模地对RS图像进行富有丰富语义的标注需要遥感领域的专业知识和大量的人类劳动,从而使这一过程成本高昂且往往不可行。在本次研究中,我们提出了一种工作流,该工作流利用大型语言模型(LLMs)从开源的OpenStreetMap(OSM)数据中生成大量带有富有语义描述性注释的多媒体数据集,这些数据源自Google Earth Engine(GEE)平台。该方法促进了配对遥感数据的生成,并可以通过公开可用的数据轻松扩展。在此框架内,我们介绍了一个多模态数据集RSTeller,该数据集包含超过130万张RS图像,每张图像都附带两个描述性注释。广泛应用的实验表明,RSTeller通过持续的预训练提升了多个现有视觉语言模型在RS场景理解方面的性能。我们的方法显著减少了标注遥感图像所需的手动努力和专业知识,同时普及了高质量标注数据的获取。这种进展促进了视觉语言建模的发展,并鼓励更广泛的参与者参与到遥感研究和应用中。RSTeller数据集可从https://github.com/SlytherinGe/RSTeller获取。