LLM2D

摘要

越来越多的机构正在将大型语言模型 (LLM) 部署到各种任务中。尽管它们具有普遍的效用，但 LLM 容易出现错误，从不准确到幻觉。为了客观地评估现有 LLM 的能力，人们进行了性能基准测试。然而，这些基准测试通常无法转化为更具体的现实世界任务。本文解决了在业务流程管理 (BPM) 领域基准测试 LLM 性能的差距。目前，不存在针对 BPM 的基准测试，这使得人们对不同 LLM 是否适合 BPM 任务存在不确定性。本文系统地比较了 LLM 在四个 BPM 任务上的性能，重点关注小型开源模型。分析旨在识别特定于任务的性能变化，比较开源模型与商业模型的有效性，并评估模型大小对 BPM 任务性能的影响。本文提供了对 LLM 在 BPM 中实际应用的见解，指导组织为其特定需求选择合适的模型。