摘要
arXiv:2410.00332v5 宣告类型: 替换
摘要: 理解守恒定律是人类认知发展中一个关键的里程碑,被认为是由数量概念的理解和操作的可逆性支持的。为了评估这种人类智能的关键组成部分是否在视觉语言模型中出现,我们搭建了ConserveBench,这是一个涵盖四个物理量维度共计365项认知实验的测试套件:体积、固体数量、长度和数量。前两种涉及到需要理解可逆性的变换任务,而后两种涉及非变换任务,评估数量理解。令人惊讶的是,我们发现,虽然视觉语言模型在变换任务方面通常表现良好,但在非变换任务方面却往往失败。操作的可逆性和数量概念的理解之间存在分离,这两种都是被认为是人类理解守恒定律基石的要素。[网站]