LLM2D
远程 sensing 视觉定位的高效适应
Efficient Adaptation For Remote Sensing Visual Grounding
作者: Hasan Moughnieh, Mohamad Chalhoub, Hasan Nasrallah, Cristiano Nattero, Paolo Campanella, Giovanni Nico, Ali J. Ghandour
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2503.23083v2

摘要

arXiv:2503.23083v2 宣告类型: replace-cross 摘要:适应预训练模型已成为人工智能中的一种有效策略,提供了一种比从头开始训练模型更具扩展性和高效性的替代方案。在遥感(RS)领域,其中视觉定位(VG)仍处于未充分探索的状态,这种方法使得能够部署强大的视觉-语言模型,以实现鲁棒的跨模态理解,同时显著降低计算开销。为了解决这一问题,我们应用参数高效微调(PEFT)技术来适应这些模型以应对RS特有的VG任务。具体而言,我们在Grounding DINO的不同模块中评估了LoRA的放置,并使用BitFit和适配器对预训练于通用VG数据集的OFA基础模型进行了微调。该方法在计算成本显著降低的同时达到了当前最佳模型(SOTA)相当或超越的性能。本研究突显了PEFT技术在推动RS中高效和精确的多模态分析方面的潜力,提供了一种比全部模型训练更具实用性和成本效益的替代方案。