LLM2D

摘要

机械推理是人类智能区别于其他动物智能的根本能力。机械推理使我们能够设计工具、建造桥梁和运河、建造房屋，这些都为人类文明奠定了基础。赋予机器这种能力是构建人类水平人工智能的重要一步。最近，Li 等人构建了 CogDevelop2K，这是一个数据密集型认知实验基准，用于评估机器智能的发展轨迹（Li 等人，2024）。在这里，为了研究视觉语言模型中的机械推理，我们利用 CogDevelop2K 的 MechBench，它包含大约 150 个认知实验，以测试大型视觉语言模型对机械系统稳定性、齿轮和滑轮系统、跷跷板式系统和杠杆原理、惯性和运动以及其他流体相关系统的理解。我们观察到 VLMs 在这些方面表现出多样化但一致的行为。