LLM2D

摘要

随着大型语言模型 (LLM) 在自然语言理解任务中展现出非凡的性能，衡量其进行类似人类的多步逻辑推理的能力变得至关重要。现有的逻辑推理评估基准通常主要关注简单的单步或多步推理，推理规则有限。此外，缺乏用于评估非单调推理的数据集是一个关键的缺口，因为它更符合人类的推理。为了解决这些局限性，我们提出了 Multi-LogiEval，这是一个全面的评估数据集，涵盖了使用各种推理规则和深度的多步逻辑推理。Multi-LogiEval 涵盖三种逻辑类型——命题逻辑、一阶逻辑和非单调逻辑——包含 30 多个推理规则，以及它们在不同深度的 60 多种组合。利用此数据集，我们对包括 GPT-4、ChatGPT、Gemini-Pro、Yi、Orca 和 Mistral 在内的各种 LLM 进行了评估，采用零样本思维链。实验结果表明，随着推理步骤/深度的增加，LLM 的性能显著下降（深度 1 的平均准确率约为 68%，深度 5 的平均准确率约为 43%）。我们进一步对 LLM 生成的推理链进行了深入调查，发现了一些重要的发现。我们相信 Multi-LogiEval 有助于未来评估和增强 LLM 逻辑推理能力的研究。数据可在 https://github.com/Mihir3009/Multi-LogiEval 获取。