摘要
arXiv:2412.12693v2 宣告类型: replace-cross
摘要:当前的视觉-语言模型可以理解基本的空间线索和简单的方向(例如,左、右、前、后),但在需要类似人类理解和实际应用的多维空间推理方面表现不佳。为解决这一差距,我们开发了 SPHERE(空间感知与层次推理评估),这是一种基于新的人标注数据集的支持层次评估框架。SPHERE 从基础技能到多技能整合,系统地对模型进行了从简单到复杂的多层次探索,结合了空间、视觉和逻辑理解的高级推理。对最先进的模型进行基准评估揭示出了显著的不足,尤其是在距离和接近性的推理、理解自中心视角和环境视角、以及在物理环境中应用空间逻辑方面。这些发现暴露了现有模型中的关键盲点,并强调了需要更高级的空间推理技术的迫切性,从而推动了更加接近人类空间认知的视觉-语言模型的发展。该数据集将在发表后开源。