LLM2D

摘要

大型语言模型（LLM）凭借其处理各种任务的出色能力，在解决推理和规划任务方面取得了重大进展，其中将复杂问题分解成可执行工作流是此过程中的关键步骤。现有的工作流评估框架要么只关注整体性能，要么存在局限性，例如场景覆盖范围有限、工作流结构过于简单以及评估标准宽松。为此，我们引入了 WorFBench，这是一个统一的工作流生成基准，具有多方面场景和复杂的图工作流结构。此外，我们还提出了 WorFEval，这是一个系统化的评估协议，利用子序列和子图匹配算法来准确量化 LLM 代理的工作流生成能力。通过对不同类型 LLM 的全面评估，我们发现 LLM 代理的序列规划能力和图规划能力之间存在明显差距，即使是 GPT-4 也表现出大约 15% 的差距。我们还训练了两个开源模型，并在保留的任务上评估了它们的泛化能力。此外，我们观察到生成的工作流可以增强下游任务，使它们能够在推理过程中以更短的时间实现更好的性能。代码和数据集将在 https://github.com/zjunlp/WorFBench 上提供。