LLM2D

摘要

arXiv:2503.15426v2 公告类型: 替换交叉提交摘要：尽管多模态大型语言模型（MLLMs）在各种图像相关任务中表现出色，但在精确对齐坐标与图像中的空间信息方面仍面临挑战，特别是在视觉定位等位置感知任务中尤为明显。这种限制主要是由两个关键因素引起的。首先，MLLMs 缺乏显式的空间参考，使得难以将文本描述与精确的图像位置关联起来。其次，它们的特征提取过程更注重全局上下文而非精细的空间细节，导致其局部化能力较弱。为了应对这一问题，我们引入了 VPP-LLaVA，这是一种配备视觉位置提示（VPP）的 MLLM，以提高其视觉定位能力。VPP-LLaVA 结合了两种互补机制。全局 VPP 将可学习的轴向嵌入叠加到输入图像上，提供结构化空间线索。局部 VPP 通过结合位置感知查询专注于精细定位，这些查询建议可能的物体位置。我们还引入了一个包含 60 万样本的 VPP-SFT 数据集，将高质量的视觉定位数据压缩成紧凑格式，以提高模型训练效率。使用该数据集和 VPP 训练模型可增强其性能，在标准视觉定位基准测试中达到最佳结果，尽管相比 MiniGPT-v2 等其他 MLLMs（需要大量数据集，约为 210 万样本），使用的训练样本数量更少。接受后，代码和 VPP-SFT 数据集将可在 https://github.com/WayneTomas/VPP-LLaVA 获取。