LLM2D

摘要

引用表达理解（REC）旨在通过自然语言定位局部视觉区域，是一项严重依赖多模态对齐的任务。大多数现有方法利用强大的预训练模型通过完全微调来转移视觉/语言知识。然而，完全微调整个骨干网络不仅打破了预训练中嵌入的丰富先验知识，还带来了显著的计算成本。受参数高效迁移学习（PETL）方法近期出现的启发，我们旨在以有效且高效的方式解决REC任务。直接将这些PETL方法应用于REC任务是不合适的，因为它们缺乏针对精确局部视觉感知和视觉-语言对齐的特定领域能力。因此，我们提出了一种新的多模态先验引导参数高效调优框架，即MaPPER。具体而言，MaPPER包括由对齐先验引导的动态先验适配器和用于提取精确局部语义以增强视觉感知的局部卷积适配器。此外，提出了先验引导的文本模块，以进一步利用先验知识促进跨模态对齐。在三个广泛使用的基准测试上的实验结果表明，MaPPER在仅调整1.41%的可调骨干参数的情况下，相比完全微调和其它PETL方法，实现了最佳的准确性。