LLM2D

摘要

arXiv:2502.04359v1 交叉公告类型摘要：空间推理是人类认知的重要组成部分，也是最新视觉-语言模型（VLMs）表现出困难的一个领域。当前的分析主要使用图像字幕任务和视觉问答。在本工作中，我们提议使用引用表达理解任务作为评估VLMs空间推理能力的平台。该平台为深入分析VLMs的空间理解及定位能力提供了机会，特别是当存在以下情况时：1）物体检测的不确定性；2）复杂的空间表达，具有较长的句式结构和多个空间关系；3）带有否定词（not）的表达。在我们的分析中，我们使用特定任务的架构以及大规模VLMs，并强调它们在处理这些特定情况下的优势和劣势。尽管所有这些模型在任务上都遇到了挑战，但相对的行为取决于底层模型及其特定的空间语义类别（如拓扑、方向、邻近等）。我们的结果突显了这些挑战和行为，并提供了研究缺口和未来方向的见解。