LLM2D
多逻辑评估:迈向评估大型语言模型的多步逻辑推理能力
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models
作者: Nisarg Patel, Mohith Kulkarni, Mihir Parmar, Aashna Budhiraja, Mutsumi Nakamura, Neeraj Varshney, Chitta Baral
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2406.17169v3

摘要

随着大型语言模型 (LLM) 在自然语言理解任务中展现出非凡的性能,衡量其进行类似人类的多步逻辑推理的能力变得至关重要。现有的逻辑推理评估基准通常主要关注简单的单步或多步推理,推理规则有限。此外,缺乏用于评估非单调推理的数据集是一个关键的缺口,因为它更符合人类的推理。为了解决这些局限性,我们提出了 Multi-LogiEval,这是一个全面的评估数据集,涵盖了使用各种推理规则和深度的多步逻辑推理。Multi-LogiEval 涵盖三种逻辑类型——命题逻辑、一阶逻辑和非单调逻辑——包含 30 多个推理规则,以及它们在不同深度的 60 多种组合。利用此数据集,我们对包括 GPT-4、ChatGPT、Gemini-Pro、Yi、Orca 和 Mistral 在内的各种 LLM 进行了评估,采用零样本思维链。实验结果表明,随着推理步骤/深度的增加,LLM 的性能显著下降(深度 1 的平均准确率约为 68%,深度 5 的平均准确率约为 43%)。我们进一步对 LLM 生成的推理链进行了深入调查,发现了一些重要的发现。我们相信 Multi-LogiEval 有助于未来评估和增强 LLM 逻辑推理能力的研究。数据可在 https://github.com/Mihir3009/Multi-LogiEval 获取。