摘要
大型语言模型 (LLM) 越来越多地被用作协调工作流程并在需要规划和多步骤推理的领域做出决策的主体。因此,必须评估LLM在规划所需的核心技能方面的能力。在这项工作中,我们提出了ACPBench,这是一个用于评估规划领域推理任务的基准。该基准包含跨越13个规划领域的7个推理任务。该集合是从用形式语言描述的规划领域构建的。这使我们能够综合具有可证明正确解的跨多个任务和领域的难题。此外,它使我们能够在无需额外人力的情况下进行扩展,即可以自动创建许多额外的难题。我们对22个LLM和OpenAI o1推理模型的广泛评估突出了LLM在推理能力方面的显著差距。我们对OpenAI o1(一种多轮推理模型)的研究结果表明,在多项选择题上的性能有了显著提高,但令人惊讶的是,在布尔问题上没有取得显著进展。ACPBench集合可在https://ibm.github.io/ACPBench 获取。