LLM2D
视觉语言模型在不知晓多少概念的情况下理解守恒定律
Vision Language Models Know Law of Conservation without Understanding More-or-Less
作者: Dezhi Luo, Haiyun Lyu, Qingying Gao, Haoran Sun, Yijiang Li, Hokin Deng
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2410.00332v5

摘要

arXiv:2410.00332v5 宣告类型: 替换 摘要: 理解守恒定律是人类认知发展中一个关键的里程碑,被认为是由数量概念的理解和操作的可逆性支持的。为了评估这种人类智能的关键组成部分是否在视觉语言模型中出现,我们搭建了ConserveBench,这是一个涵盖四个物理量维度共计365项认知实验的测试套件:体积、固体数量、长度和数量。前两种涉及到需要理解可逆性的变换任务,而后两种涉及非变换任务,评估数量理解。令人惊讶的是,我们发现,虽然视觉语言模型在变换任务方面通常表现良好,但在非变换任务方面却往往失败。操作的可逆性和数量概念的理解之间存在分离,这两种都是被认为是人类理解守恒定律基石的要素。[网站]