LLM2D
WONDERBREAD:用于评估多模态基础模型在业务流程管理任务中的基准测试
WONDERBREAD: A Benchmark for Evaluating Multimodal Foundation Models on Business Process Management Tasks
作者: Michael Wornow, Avanika Narayan, Ben Viggiano, Ishan S. Khare, Tathagat Verma, Tibor Thompson, Miguel Angel Fuentes Hernandez, Sudharsan Sundar, Chloe Trujillo, Krrish Chawla, Rongfei Lu, Justin Shen, Divya Nagaraj, Joshua Martinez, Vardhan Agrawal, Althea Hudson, Nigam H. Shah, Christopher Re
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2406.13264v2

摘要

现有的机器学习基准缺乏评估模型在业务流程管理 (BPM) 任务上的深度和多样性注释。BPM 是记录、衡量、改进和自动化企业工作流程的做法。然而,研究几乎完全集中在一项任务上——使用基于多模态基础模型 (FM)(如 GPT-4)的代理进行全面的端到端自动化。这种对自动化的关注忽略了大多数 BPM 工具在当今应用方式的现实——仅仅记录相关工作流程就占据了典型流程优化项目时间的 60%。为了解决这一差距,我们提出了 WONDERBREAD,这是第一个评估多模态 FM 在超越自动化的 BPM 任务上的基准。我们的贡献是:(1)包含 2928 个已记录工作流程演示的数据集;(2)从现实世界应用中获得的 6 个新颖的 BPM 任务,涵盖从工作流程文档到知识转移到流程改进的各个方面;以及(3)自动评估工具。我们的基准表明,虽然最先进的 FM 可以自动生成文档(例如,回忆视频演示工作流程中 88% 的步骤),但它们难以将这些知识重新应用于工作流程完成的更细粒度的验证(F1 < 0.3)。我们希望 WONDERBREAD 鼓励为企业应用程序开发更多“以人为本”的 AI 工具,并推动多模态 FM 在更广泛的 BPM 任务领域中的探索。我们发布我们的数据集和实验:https://github.com/HazyResearch/wonderbread