LLM2D

摘要

在大型语言模型（LLM）热潮的背景下，迫切需要对其能力和不足进行科学评估。这并非易事，部分原因在于难以找到模型在训练过程中未曾遇到的任务。利用符号图形程序，我们提出了一种非常适合测试 LLM 多种空间语义推理能力的领域。这些程序在计算机图形学中很流行，可以生成视觉数据。虽然 LLM 在一般的程序合成和分析方面表现出惊人的能力，但符号图形程序提供了一个新的评估层：它们允许我们测试 LLM 在没有视觉编码器的情况下，回答图像或 3D 几何体的不同粒度的语义级问题的能力。为了语义地理解符号程序，LLM 需要具备“想象”和推理的能力，即如何仅用符号描述来呈现相应的图形内容。我们利用这项任务通过创建用于评估符号图形程序的语义视觉理解的大型基准来评估 LLM，该基准通过程序化方式构建，只需最少的人工干预。特别强调的是，图像的变换会保持图像级语义不变，同时对底层程序引入重大变化。我们在我们的基准上评估商业和开源 LLM，以评估它们推理程序的视觉输出的能力，发现被认为推理能力更强的 LLM 通常表现更好。最后，我们引入了一种新的方法来提高这种能力——符号指令微调 (SIT)，其中 LLM 使用在符号图形程序上预先收集的指令数据进行微调。有趣的是，我们发现 SIT 不仅提高了 LLM 对符号程序的理解能力，而且还提高了在各种其他基准上的通用推理能力。