LLM2D

摘要

arXiv:2410.00332v5 宣告类型: 替换摘要: 理解守恒定律是人类认知发展中一个关键的里程碑，被认为是由数量概念的理解和操作的可逆性支持的。为了评估这种人类智能的关键组成部分是否在视觉语言模型中出现，我们搭建了ConserveBench，这是一个涵盖四个物理量维度共计365项认知实验的测试套件：体积、固体数量、长度和数量。前两种涉及到需要理解可逆性的变换任务，而后两种涉及非变换任务，评估数量理解。令人惊讶的是，我们发现，虽然视觉语言模型在变换任务方面通常表现良好，但在非变换任务方面却往往失败。操作的可逆性和数量概念的理解之间存在分离，这两种都是被认为是人类理解守恒定律基石的要素。[网站]