摘要
arXiv:2504.04988v1 数据集类型: cross
摘要: 在自然图像域中,近期在 VLMs 方面取得的进步展示了其在各种任务中的出色能力。受到这些进展的启发,遥感社区开始将 VLMs 应用于遥感视觉语言任务,包括场景理解、图像 captioning 和视觉问答等领域。然而,现有的遥感 VLMs 通常依赖于封闭集的场景理解,侧重于通用场景描述,但缺乏融入外部知识的能力。这一限制阻碍了它们应对涉及特定领域或世界知识的复杂或上下文相关查询时的语义推理能力。为了应对这些挑战,我们首先引入了一个多模态遥感世界知识 (RSWK) 数据集,该数据集包含了175个国家14,141个著名地标的高度分辨率卫星图像和详细的文本描述,集成了遥感领域的知识和更广泛的世界知识。在此数据集的基础上,我们提出了一种新颖的遥感检索增强生成 (RS-RAG) 框架,该框架包含两个关键组件。多模态知识向量数据库构建模块将遥感图像及其相关文本知识编码到统一的向量空间中。知识检索和响应生成模块根据图像和/或文本查询检索并重新排名相关知识,并将检索到的内容融入知识增强的提示,引导 VLM 生成上下文依托的响应。我们通过三个代表性视觉语言任务(包括图像 captioning、图像分类和视觉问答)验证了我们方法的有效性,其中 RS-RAG 显著优于最先进的基线方法。