LLM2D

摘要

arXiv:2412.12693v2 宣告类型: replace-cross 摘要：当前的视觉-语言模型可以理解基本的空间线索和简单的方向（例如，左、右、前、后），但在需要类似人类理解和实际应用的多维空间推理方面表现不佳。为解决这一差距，我们开发了 SPHERE（空间感知与层次推理评估），这是一种基于新的人标注数据集的支持层次评估框架。SPHERE 从基础技能到多技能整合，系统地对模型进行了从简单到复杂的多层次探索，结合了空间、视觉和逻辑理解的高级推理。对最先进的模型进行基准评估揭示出了显著的不足，尤其是在距离和接近性的推理、理解自中心视角和环境视角、以及在物理环境中应用空间逻辑方面。这些发现暴露了现有模型中的关键盲点，并强调了需要更高级的空间推理技术的迫切性，从而推动了更加接近人类空间认知的视觉-语言模型的发展。该数据集将在发表后开源。