摘要
arXiv:2411.01595v2 宣传类型: 交叉替换
摘要:远程 sensing 图像字幕 (RSIC) 面临独特的挑战,并在应用中发挥着关键作用。传统的 RSIC 方法往往难以生成丰富多样的描述。近年来,随着视觉语言模型 (VLMs) 的发展,人们开始将这些模型集成到 remote sensing 领域,并引入专门设计的数据集以增强 VLM 的训练。本文提出 RS-MoE,这是一种专门为 remote sensing 领域定制的第一代混合专家视觉语言模型。与传统的 MoE 模型不同,RS-MoE 的核心是 MoE 块,它结合了新颖的指令路由器 (Instruction Router) 和多个轻量级大语言模型 (LLMs) 作为专家模型。指令路由器旨在为每个相应的 LLM 生成特定的提示,从而引导它们关注 RSIC 任务的不同方面。这一设计不仅使每个专家 LLM 能够专注于任务的一个特定子集,从而增强生成字幕的特异性和准确性,还通过促进子任务的并行处理提高了模型的可扩展性。此外,我们提出了一种两阶段训练策略来调整我们的 RS-MoE 模型,以防止由于稀疏性导致的性能下降。我们使用提出的训练策略在 RSICap 数据集上微调了我们的模型。在 RSICap 数据集上的实验结果,以及在没有额外微调的其他传统数据集上的评估表明,我们的模型在生成精确且上下文相关描述方面达到了最新的技术水平。值得注意的是,我们的 RS-MoE-1B 变体的性能与 13B 的 VLM 相当,显示出我们模型设计的高效性。此外,我们的模型在 Remote Sensing Visual Question Answering (RSVQA) 任务上的一致性性能表明了其强大的泛化能力。