摘要
机械推理是人类智能区别于其他动物智能的根本能力。机械推理使我们能够设计工具、建造桥梁和运河、建造房屋,这些都为人类文明奠定了基础。赋予机器这种能力是构建人类水平人工智能的重要一步。最近,Li 等人构建了 CogDevelop2K,这是一个数据密集型认知实验基准,用于评估机器智能的发展轨迹(Li 等人,2024)。在这里,为了研究视觉语言模型中的机械推理,我们利用 CogDevelop2K 的 MechBench,它包含大约 150 个认知实验,以测试大型视觉语言模型对机械系统稳定性、齿轮和滑轮系统、跷跷板式系统和杠杆原理、惯性和运动以及其他流体相关系统的理解。我们观察到 VLMs 在这些方面表现出多样化但一致的行为。