LLM2D

摘要

arXiv:2410.00332v4 宣告类型: 替换摘要: 保持被认为是认知发展的一个关键里程碑，被认为是定量概念理解和支持操作可逆性的结果。为了评估这种人类智能的关键组成部分是否已经在视觉语言模型中出现，我们收集了ConserveBench，这是一个涉及四种物理量维度的认知实验电池：体积、实体数量、长度和数量。前两者涉及要求理解可逆性的转换任务，后两者涉及评估数量理解的非转换任务。出人意料的是，我们发现视觉语言模型在转换任务中通常表现良好，但在非转换任务中往往会失败。理解和操作可逆性之间的理解以及数量理解之间的分离，被普遍认为是人类对守恒定律理解的核心。[网站链接](https://growing-ai-like-a-child.github.io/pages/Conservation/)