LLM2D
SpaRE:通过合成数据增强视觉语言模型的空间推理能力
SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data
作者: Michael Ogezi, Freda Shi
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20648v1

摘要

arXiv:2504.20648v1 交叉类型:视觉-语言模型 摘要:视觉-语言模型(VLMs)在从图像字幕到视觉问答(VQA)的各种任务中表现出色,但在空间推理方面却遇到困难,而空间推理是人类在理解物理世界时极为擅长的一项关键技能。我们发现,在广泛使用的VL数据集中,空间关系通常很少,只有少数关系被很好地表示,而大多数则形成一个未被充分代表的关系长尾。这种差距使VLMs难以处理多样化的空间关系。为了弥合这一差距,我们构建了一个基于局部叙述、DOCCI和PixMo-Cap中的超详细图像描述生成的合成VQA数据集,专注于空间推理。该数据集包含455,000个样本,共计340万个问答对。在该数据集上训练后,我们的增强空间推理(SpaRE)VLMs在空间推理基准测试中表现出显著改进,已在What's Up基准测试上取得了高达49%的性能提升,同时在一般任务上仍保持高水平表现。我们的工作缩小了人类和VLM在空间推理方面的差距,并使VLMs在诸如机器人技术和导航等实际任务中更具能力。