LLM2D
代理工作流生成基准测试
Benchmarking Agentic Workflow Generation
作者: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07869v1

摘要

大型语言模型(LLM)凭借其处理各种任务的出色能力,在解决推理和规划任务方面取得了重大进展,其中将复杂问题分解成可执行工作流是此过程中的关键步骤。现有的工作流评估框架要么只关注整体性能,要么存在局限性,例如场景覆盖范围有限、工作流结构过于简单以及评估标准宽松。为此,我们引入了 WorFBench,这是一个统一的工作流生成基准,具有多方面场景和复杂的图工作流结构。此外,我们还提出了 WorFEval,这是一个系统化的评估协议,利用子序列和子图匹配算法来准确量化 LLM 代理的工作流生成能力。通过对不同类型 LLM 的全面评估,我们发现 LLM 代理的序列规划能力和图规划能力之间存在明显差距,即使是 GPT-4 也表现出大约 15% 的差距。我们还训练了两个开源模型,并在保留的任务上评估了它们的泛化能力。此外,我们观察到生成的工作流可以增强下游任务,使它们能够在推理过程中以更短的时间实现更好的性能。代码和数据集将在 https://github.com/zjunlp/WorFBench 上提供。