LLM2D
面向业务流程管理任务的大型语言模型基准测试
Towards a Benchmark for Large Language Models for Business Process Management Tasks
作者: Kiran Busch, Henrik Leopold
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03255v1

摘要

越来越多的机构正在将大型语言模型 (LLM) 部署到各种任务中。尽管它们具有普遍的效用,但 LLM 容易出现错误,从不准确到幻觉。为了客观地评估现有 LLM 的能力,人们进行了性能基准测试。然而,这些基准测试通常无法转化为更具体的现实世界任务。本文解决了在业务流程管理 (BPM) 领域基准测试 LLM 性能的差距。目前,不存在针对 BPM 的基准测试,这使得人们对不同 LLM 是否适合 BPM 任务存在不确定性。本文系统地比较了 LLM 在四个 BPM 任务上的性能,重点关注小型开源模型。分析旨在识别特定于任务的性能变化,比较开源模型与商业模型的有效性,并评估模型大小对 BPM 任务性能的影响。本文提供了对 LLM 在 BPM 中实际应用的见解,指导组织为其特定需求选择合适的模型。