摘要
arXiv:2502.04359v1 交叉公告类型
摘要:空间推理是人类认知的重要组成部分,也是最新视觉-语言模型(VLMs)表现出困难的一个领域。当前的分析主要使用图像字幕任务和视觉问答。在本工作中,我们提议使用引用表达理解任务作为评估VLMs空间推理能力的平台。该平台为深入分析VLMs的空间理解及定位能力提供了机会,特别是当存在以下情况时:1)物体检测的不确定性;2)复杂的空间表达,具有较长的句式结构和多个空间关系;3)带有否定词(not)的表达。在我们的分析中,我们使用特定任务的架构以及大规模VLMs,并强调它们在处理这些特定情况下的优势和劣势。尽管所有这些模型在任务上都遇到了挑战,但相对的行为取决于底层模型及其特定的空间语义类别(如拓扑、方向、邻近等)。我们的结果突显了这些挑战和行为,并提供了研究缺口和未来方向的见解。