LLM2D

摘要

现有的机器学习基准缺乏评估模型在业务流程管理 (BPM) 任务上的深度和多样性注释。BPM 是记录、衡量、改进和自动化企业工作流程的做法。然而，研究几乎完全集中在一项任务上——使用基于多模态基础模型 (FM)（如 GPT-4）的代理进行全面的端到端自动化。这种对自动化的关注忽略了大多数 BPM 工具在当今应用方式的现实——仅仅记录相关工作流程就占据了典型流程优化项目时间的 60%。为了解决这一差距，我们提出了 WONDERBREAD，这是第一个评估多模态 FM 在超越自动化的 BPM 任务上的基准。我们的贡献是：（1）包含 2928 个已记录工作流程演示的数据集；（2）从现实世界应用中获得的 6 个新颖的 BPM 任务，涵盖从工作流程文档到知识转移到流程改进的各个方面；以及（3）自动评估工具。我们的基准表明，虽然最先进的 FM 可以自动生成文档（例如，回忆视频演示工作流程中 88% 的步骤），但它们难以将这些知识重新应用于工作流程完成的更细粒度的验证（F1 < 0.3）。我们希望 WONDERBREAD 鼓励为企业应用程序开发更多“以人为本”的 AI 工具，并推动多模态 FM 在更广泛的 BPM 任务领域中的探索。我们发布我们的数据集和实验：https://github.com/HazyResearch/wonderbread