LLM2D
探究大型视觉语言模型中的机械推理能力
Probing Mechanical Reasoning in Large Vision Language Models
作者: Haoran Sun, Qingying Gao, Haiyun Lyu, Dezhi Luo, Yijiang Li, Hokin Deng
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2410.00318v3

摘要

arXiv:2410.00318v3 机械推理类型: 修改 摘要:机械推理是人类智能的一个标志,定义为其在从日常任务到土木工程等各种人类活动中无处不在且不可替代的作用。因此,向机器嵌入机械推理是构建人类水平的人工智能的重要一步。在此,我们利用155项认知实验来测试26个视觉语言模型(VLMs)对系统稳定性、齿轮和滑轮系统、杠杆原理、惯性和运动以及流体力学的理解。结果表明,VLMs在所有领域中都表现逊于人类,尤其是在齿轮系统的推理和流体力学方面表现出显著的困难。值得注意的是,随着参数数量的增加,它们在这些任务上的表现并未改善,这表明当前基于注意力的架构可能无法掌握进行机械推理所需的某些底层机制,特别是在涉及心理模拟的部分。