LLM2D

摘要

越来越多的工作使用大型语言模型 (LLM) 作为代理来编排工作流程并在需要规划和多步骤推理的领域中做出决策。因此，必须评估 LLM 在规划所需的核心技能方面的表现。在这项工作中，我们提出了 ACPBench，一个用于评估规划领域中推理任务的基准。该基准包含 13 个规划领域中的 7 个推理任务。该集合是从用形式语言描述的规划领域构建的。这使我们能够综合出在许多任务和领域中具有可证明正确解的问题。此外，它让我们可以在没有额外人工干预的情况下实现规模化，即可以自动创建更多问题。我们对 22 个开源和前沿 LLM 的广泛评估突出了 LLM 在推理能力方面的巨大差距。在这些任务中，表现最佳的前沿 LLM 之一 GPT-4o 的平均准确率低至 52.50%。ACPBench 集合可在 https://ibm.github.io/ACPBench 获取。