LLM2D

摘要

arXiv:2503.23083v2 宣告类型: replace-cross 摘要：适应预训练模型已成为人工智能中的一种有效策略，提供了一种比从头开始训练模型更具扩展性和高效性的替代方案。在遥感(RS)领域，其中视觉定位(VG)仍处于未充分探索的状态，这种方法使得能够部署强大的视觉-语言模型，以实现鲁棒的跨模态理解，同时显著降低计算开销。为了解决这一问题，我们应用参数高效微调(PEFT)技术来适应这些模型以应对RS特有的VG任务。具体而言，我们在Grounding DINO的不同模块中评估了LoRA的放置，并使用BitFit和适配器对预训练于通用VG数据集的OFA基础模型进行了微调。该方法在计算成本显著降低的同时达到了当前最佳模型（SOTA）相当或超越的性能。本研究突显了PEFT技术在推动RS中高效和精确的多模态分析方面的潜力，提供了一种比全部模型训练更具实用性和成本效益的替代方案。