摘要
arXiv:2408.14744v3 宣告类型: 替换交叉
摘要:遥感领域丰富的、注释良好的多模态数据对于将复杂的视觉遥感(RS)场景与人类语言对齐至关重要,这有助于在多样的RS解释任务中开发专门的视觉语言模型。然而,以大量丰富语言语义对遥感图像进行注释需要遥感领域的专业知识和大量的人工劳动,这使得这一过程成本高昂且常常不切实际。在本研究中,我们提出了一种工作流,利用大型语言模型(LLMs)从Google Earth Engine(GEE)平台获取的原始OpenStreetMap(OSM)数据生成具有丰富语义描述的多模态数据集。这种方法促进了遥感数据配对的生成,并且可以利用公开可用的数据进行扩展。在这一框架内,我们介绍了RSTeller数据集,该数据集包含超过130万幅遥感图像,每幅图像都配有两句描述性的说明。广泛的经验表明,RSTeller通过持续的预训练增强了多种现有视觉语言模型在遥感场景理解方面的性能。我们的方法大幅减少了对遥感图像进行人工注释所需的劳动和专业知识,同时也使高质量注释数据的获取更加公平。这一进展促进了视觉语言建模的发展,并鼓励更多人参与遥感研究和应用。RSTeller数据集可在https://github.com/SlytherinGe/RSTeller获得。