摘要
现有的机器学习基准缺乏评估模型在业务流程管理 (BPM) 任务上的深度和多样性注释。BPM 是记录、衡量、改进和自动化企业工作流程的做法。然而,研究几乎完全集中在一项任务上——使用基于多模态基础模型 (FM)(如 GPT-4)的代理进行全面的端到端自动化。这种对自动化的关注忽略了大多数 BPM 工具在当今应用方式的现实——仅仅记录相关工作流程就占据了典型流程优化项目时间的 60%。为了解决这一差距,我们提出了 WONDERBREAD,这是第一个评估多模态 FM 在超越自动化的 BPM 任务上的基准。我们的贡献是:(1)包含 2928 个已记录工作流程演示的数据集;(2)从现实世界应用中获得的 6 个新颖的 BPM 任务,涵盖从工作流程文档到知识转移到流程改进的各个方面;以及(3)自动评估工具。我们的基准表明,虽然最先进的 FM 可以自动生成文档(例如,回忆视频演示工作流程中 88% 的步骤),但它们难以将这些知识重新应用于工作流程完成的更细粒度的验证(F1 < 0.3)。我们希望 WONDERBREAD 鼓励为企业应用程序开发更多“以人为本”的 AI 工具,并推动多模态 FM 在更广泛的 BPM 任务领域中的探索。我们发布我们的数据集和实验:https://github.com/HazyResearch/wonderbread