LLM2D

摘要

arXiv:2503.23083v1 交叉公告类型摘要：基础模型已重塑了人工智能（AI），在多模态领域提供了令人瞩目的能力。这些模型通过丰富的上下文信息和详细的物体描述，在复杂航空和卫星图像中精确定位物体的能力对于遥感（RS）至关重要。这些模型可以通过视觉对接（VG）任务将文本描述与物体位置关联起来，但由于领域特定的挑战，它们直接应用于RS时会产生次优结果。为了解决这一问题，我们应用了参数高效微调（PEFT）技术，使这些模型适应RS特定的VG任务。具体而言，我们在Grounding DINO的不同模块中评估了LoRA的放置，并使用BitFit和适配器对在通用VG数据集上预训练的OFA基础模型进行了微调。该方法在性能上达到了或超过了当前最佳水平（SOTA），同时显著降低了计算成本。这项研究突显了PEFT技术在促进RS中高效和精确的多模态分析方面的潜力，提供了一种实用且成本效益高的全模型训练替代方案。