LLM2D

摘要

arXiv:2503.07588v2 宣告类型: replace-cross 摘要：高效地理解和处理大型遥感图像（RSI）在视觉和语言之间具有重要意义但同时也极具挑战性。当前的大型视觉-语言模型（LVLMs）通常使用有限的预定义网格来处理图像，在处理几兆像素级的RSI时会导致信息丢失。相反，使用无限的网格会显著增加计算成本。为了在保持图像细节的同时减少计算复杂性，我们提出了一种结合动态图像金字塔（DIP）的文本引导的token剪枝方法。我们的方法引入了：(i) 一个区域聚焦模块（RFM），该模块利用了文本感知的区域定位能力来识别关键的视觉token；(ii) 一种粗到细的图像瓷砖选择和视觉token剪枝策略，该策略基于DIP，并由RFM的输出引导，避免直接处理整个大型图像。此外，现有的评估LVLMs在大型RSI上感知能力的基准功能有限，图像多样性不足且图像大小受限。我们构建了一个新的基准，称为LRS-VQA，其中包含7,333个问答对，覆盖8个类别，并且图像长度高达27,328像素。我们的方法在四个数据集上优于现有的高分辨率策略，且在高分辨率设置下，我们的方法也表现出更高的效率。数据集和代码可在https://github.com/VisionXLab/LRS-VQA获取。