LLM2D

摘要

arXiv:2410.00318v2 机器类型: 更新摘要：机械推理是人类智能的一个 hallmark，因其在从日常任务到土木工程等各种人类活动中的普遍且不可替代的作用。因此，将机械推理嵌入机器是构建人类水平的人工智能的重要一步。在这里，我们利用 155 项认知实验测试了 26 个视觉语言模型（VLMs）在系统稳定性、齿轮和滑轮系统的理解、杠杆原理、惯性和运动以及流体机械方面的理解能力。结果表明，VLMs 在所有领域中的表现都逊于人类，特别是在齿轮系统和流体机械方面的推理能力存在显著困难。值得注意的是，随着参数数量的增加，其在这项任务上的表现并未改善，这表明当前基于注意力的架构可能无法掌握机械推理所需的某些底层机制，特别是与心理模拟相关的机制。