LLM2D
ProcBench:多步推理和程序遵循基准测试
ProcBench: Benchmark for Multi-Step Reasoning and Following Procedure
作者: Ippei Fujisawa, Sensho Nobe, Hiroki Seto, Rina Onda, Yoshiaki Uchida, Hiroki Ikoma, Pei-Chun Chien, Ryota Kanai
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03117v1

摘要

推理是多种智力活动的核心,虽然大型语言模型 (LLM) 的能力不断提升,但它们在推理任务中的表现仍然有限。推理背后的过程和机制尚未完全理解,但关键要素包括路径探索、相关知识的选择和多步推理。问题通过这些要素的综合解决。在本文中,我们提出了一种基准,它关注推理能力的特定方面:对多步推理的直接评估。为此,我们设计了一项特殊的推理任务,通过很大程度上消除路径探索和隐式知识利用来专门关注多步推理。我们的数据集包含成对的显式指令和相应的疑问,其中解决疑问所需的步骤完全详细地记录在指令中。这种设置允许模型仅通过遵循提供的指令来解决问题。通过构建需要不同步骤数才能解决的问题,并在每一步评估响应,我们能够彻底评估最先进的 LLM 遵循指令的能力。为了确保评估的稳健性,我们包含了多个不同的任务。此外,通过比较不同任务的准确性,利用步长感知指标,并应用单独定义的复杂度度量,我们进行了实验,这些实验提供了对 LLM 在推理任务中的能力和局限性的见解。我们的发现对 LLM 的开发具有重大意义,并突出了未来研究中提升其推理能力的领域。我们的数据集可在 \url{https://huggingface.co/datasets/ifujisawa/procbench} 获取,代码可在 \url{https://github.com/ifujisawa/proc-bench} 获取。