LLM2D

摘要

我们提出了 SPACE，一个系统地评估前沿模型空间认知能力的基准。我们的基准建立在认知科学数十年的研究基础上。它评估了生物体在穿越物理环境时所表现出的宏观地图绘制能力、对物体形状和布局的微观推理能力，以及空间注意力和记忆等认知基础设施。对于许多任务，我们通过文本和图像提供并行呈现，使我们能够同时评估大型语言模型和大型多模态模型。结果表明，当代前沿模型的空间智能能力不及动物，在许多经典的动物认知测试中表现接近随机水平。