LLM2D

摘要

大型语言模型（LLMs）的推理能力是人工智能和认知科学中越来越多研究的主题。在本文中，我们探讨了二十五个LLMs在区分逻辑上正确的推理和逻辑上谬误的推理方面的能力。我们重点关注涉及条件句（例如，“如果安有一张皇后，那么鲍勃有一张杰克”）和认知模态（例如，“安可能有一张A”，“鲍勃必须有一张K”）的推理模式。这些推理对于逻辑学家、哲学家和语言学家来说特别重要，因为它们在人类推理远程可能性这一基本能力中起着核心作用。因此，评估LLMs在这些推理中的表现对于了解LLMs的推理能力与人类的匹配程度具有高度相关性。在我们测试的LLMs中，除了GPT-4模型系列外，所有模型在条件句上经常犯基本错误，尽管零样本链式思维提示有助于减少错误。此外，即使是GPT-4系列在涉及认知模态的推理模式中也表现出逻辑不一致的判断，几乎所有模型在文献中广泛讨论的某些复杂条件推理问题上的回答都不符合人类判断。这些结果突显了当今LLMs在基本逻辑推理方面的差距。