摘要
arXiv:2503.23083v1 交叉公告类型
摘要:基础模型已重塑了人工智能(AI),在多模态领域提供了令人瞩目的能力。这些模型通过丰富的上下文信息和详细的物体描述,在复杂航空和卫星图像中精确定位物体的能力对于遥感(RS)至关重要。这些模型可以通过视觉对接(VG)任务将文本描述与物体位置关联起来,但由于领域特定的挑战,它们直接应用于RS时会产生次优结果。为了解决这一问题,我们应用了参数高效微调(PEFT)技术,使这些模型适应RS特定的VG任务。具体而言,我们在Grounding DINO的不同模块中评估了LoRA的放置,并使用BitFit和适配器对在通用VG数据集上预训练的OFA基础模型进行了微调。该方法在性能上达到了或超过了当前最佳水平(SOTA),同时显著降低了计算成本。这项研究突显了PEFT技术在促进RS中高效和精确的多模态分析方面的潜力,提供了一种实用且成本效益高的全模型训练替代方案。