LLM2D

摘要

指代表达式理解（REC）旨在通过自然语言将一个局部视觉区域与语义联系起来，是一个高度依赖于跨模态对齐的任务。大多数现有方法利用强大的预训练模型，通过全量微调来迁移视觉/语言知识。然而，对整个主干网络进行全量微调不仅会破坏预训练中嵌入的丰富先验知识，还会产生巨大的计算成本。受参数高效迁移学习（PETL）方法近期兴起的启发，我们旨在以一种有效且高效的方式解决 REC 任务。直接将这些 PETL 方法应用于 REC 任务是不合适的，因为它们缺乏对精确局部视觉感知和视觉语言对齐的特定领域能力。因此，我们提出了一种新的多模态先验引导参数高效调优框架，即 MaPPER。具体而言，MaPPER 包含由对齐先验引导的动态先验适配器，以及用于提取精确局部语义以实现更好视觉感知的局部卷积适配器。此外，还提出了先验引导文本模块，以进一步利用先验来促进跨模态对齐。在三个广泛使用的基准数据集上的实验结果表明，MaPPER 在仅使用 1.41% 可调主干网络参数的情况下，实现了与全量微调和其他 PETL 方法相比最佳的精度。我们的代码可在 https://github.com/liuting20/MaPPER 获取。