LLM2D

摘要

arXiv:2410.06468v2 通告类型: 替换摘要: 尚未完成。我们介绍了SPACE基准，用于系统性评估前沿模型的空间认知能力。该基准建立在认知科学几十年的研究基础上。它评估了当有机体穿越物理环境时所运用的大规模映射能力、关于物体形状和布局的小规模推理能力，以及如空间注意力和记忆等认知基础设施。对于许多任务，我们通过文本和图像的并行呈现实例化，从而可以评估大型语言模型和大型多模态模型。结果表明，当前的前沿模型在空间智能方面落后于动物，多项经典动物认知测试的表现接近随机水平。代码和数据可在以下链接获取：https://github.com/apple/ml-space-benchmark