LLM2D

摘要

在认知发展中，守恒是一个关键的里程碑，被认为是由对数量概念的理解和心理操作的可逆性共同支持的。为了评估这种人类智力的关键组成部分是否已在视觉语言模型中出现，我们利用 CogDevelop2K 中的 ConserveBench，这是一个数据密集型认知实验基准，用于评估机器智能的发展轨迹。该测试包括超过 350 个问题，涵盖物理量的四个维度：体积、固体数量、长度和数量。前两个仅涉及转换任务，而后两个还涉及非转换任务，仅评估对数量概念的理解。令人惊讶的是，我们发现，虽然 VLM 通常能够守恒，但它们往往无法完成非转换任务，而这些任务的成功通常被认为是守恒能力的体现。这意味着，至少在具体领域，守恒定律可能存在，而没有相应的数量概念理解。