LLM2D
当大型视觉-语言模型遇到大型遥感图像:从粗到细的文字引导tokens裁剪
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
作者: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.07588v2

摘要

arXiv:2503.07588v2 宣告类型: replace-cross 摘要:高效地理解和处理大型遥感图像(RSI)在视觉和语言之间具有重要意义但同时也极具挑战性。当前的大型视觉-语言模型(LVLMs)通常使用有限的预定义网格来处理图像,在处理几兆像素级的RSI时会导致信息丢失。相反,使用无限的网格会显著增加计算成本。为了在保持图像细节的同时减少计算复杂性,我们提出了一种结合动态图像金字塔(DIP)的文本引导的token剪枝方法。我们的方法引入了:(i) 一个区域聚焦模块(RFM),该模块利用了文本感知的区域定位能力来识别关键的视觉token;(ii) 一种粗到细的图像瓷砖选择和视觉token剪枝策略,该策略基于DIP,并由RFM的输出引导,避免直接处理整个大型图像。此外,现有的评估LVLMs在大型RSI上感知能力的基准功能有限,图像多样性不足且图像大小受限。我们构建了一个新的基准,称为LRS-VQA,其中包含7,333个问答对,覆盖8个类别,并且图像长度高达27,328像素。我们的方法在四个数据集上优于现有的高分辨率策略,且在高分辨率设置下,我们的方法也表现出更高的效率。数据集和代码可在https://github.com/VisionXLab/LRS-VQA获取。