LLM2D

摘要

arXiv:2504.20648v1 交叉类型：视觉-语言模型摘要：视觉-语言模型（VLMs）在从图像字幕到视觉问答（VQA）的各种任务中表现出色，但在空间推理方面却遇到困难，而空间推理是人类在理解物理世界时极为擅长的一项关键技能。我们发现，在广泛使用的VL数据集中，空间关系通常很少，只有少数关系被很好地表示，而大多数则形成一个未被充分代表的关系长尾。这种差距使VLMs难以处理多样化的空间关系。为了弥合这一差距，我们构建了一个基于局部叙述、DOCCI和PixMo-Cap中的超详细图像描述生成的合成VQA数据集，专注于空间推理。该数据集包含455,000个样本，共计340万个问答对。在该数据集上训练后，我们的增强空间推理（SpaRE）VLMs在空间推理基准测试中表现出显著改进，已在What's Up基准测试上取得了高达49%的性能提升，同时在一般任务上仍保持高水平表现。我们的工作缩小了人类和VLM在空间推理方面的差距，并使VLMs在诸如机器人技术和导航等实际任务中更具能力。