LLM2D

摘要

推理是多种智力活动的核心，虽然大型语言模型 (LLM) 的能力不断提升，但它们在推理任务中的表现仍然有限。推理背后的过程和机制尚未完全理解，但关键要素包括路径探索、相关知识的选择和多步推理。问题通过这些要素的综合解决。在本文中，我们提出了一种基准，它关注推理能力的特定方面：对多步推理的直接评估。为此，我们设计了一项特殊的推理任务，通过很大程度上消除路径探索和隐式知识利用来专门关注多步推理。我们的数据集包含成对的显式指令和相应的疑问，其中解决疑问所需的步骤完全详细地记录在指令中。这种设置允许模型仅通过遵循提供的指令来解决问题。通过构建需要不同步骤数才能解决的问题，并在每一步评估响应，我们能够彻底评估最先进的 LLM 遵循指令的能力。为了确保评估的稳健性，我们包含了多个不同的任务。此外，通过比较不同任务的准确性，利用步长感知指标，并应用单独定义的复杂度度量，我们进行了实验，这些实验提供了对 LLM 在推理任务中的能力和局限性的见解。我们的发现对 LLM 的开发具有重大意义，并突出了未来研究中提升其推理能力的领域。我们的数据集可在 \url{https://huggingface.co/datasets/ifujisawa/procbench} 获取，代码可在 \url{https://github.com/ifujisawa/proc-bench} 获取。