摘要
arXiv:2503.15426v2 公告类型: 替换交叉提交
摘要:尽管多模态大型语言模型(MLLMs)在各种图像相关任务中表现出色,但在精确对齐坐标与图像中的空间信息方面仍面临挑战,特别是在视觉定位等位置感知任务中尤为明显。这种限制主要是由两个关键因素引起的。首先,MLLMs 缺乏显式的空间参考,使得难以将文本描述与精确的图像位置关联起来。其次,它们的特征提取过程更注重全局上下文而非精细的空间细节,导致其局部化能力较弱。为了应对这一问题,我们引入了 VPP-LLaVA,这是一种配备视觉位置提示(VPP)的 MLLM,以提高其视觉定位能力。VPP-LLaVA 结合了两种互补机制。全局 VPP 将可学习的轴向嵌入叠加到输入图像上,提供结构化空间线索。局部 VPP 通过结合位置感知查询专注于精细定位,这些查询建议可能的物体位置。我们还引入了一个包含 60 万样本的 VPP-SFT 数据集,将高质量的视觉定位数据压缩成紧凑格式,以提高模型训练效率。使用该数据集和 VPP 训练模型可增强其性能,在标准视觉定位基准测试中达到最佳结果,尽管相比 MiniGPT-v2 等其他 MLLMs(需要大量数据集,约为 210 万样本),使用的训练样本数量更少。接受后,代码和 VPP-SFT 数据集将可在 https://github.com/WayneTomas/VPP-LLaVA 获取。