摘要
大型语言模型 (LLMs) 在处理需要实时访问外部 API 的任务方面存在局限性。虽然已经开发了 ToolBench 和 APIGen 等多个基准来评估 LLM 的 API 使用能力,但它们往往存在一些问题,例如缺乏泛化能力、多步推理覆盖范围有限,以及由于实时 API 波动而导致的不稳定性。本文介绍了 SEAL,一个端到端的测试平台,旨在评估 LLM 在现实世界 API 使用中的表现。SEAL 标准化了现有的基准,集成了一个代理系统来测试 API 检索和规划,并通过引入一个由 GPT-4 驱动的 API 模拟器(带有缓存功能)来解决实时 API 的不稳定性,以进行确定性评估。我们的测试平台提供了一个全面的评估流程,涵盖 API 检索、API 调用和最终响应,为在各种现实场景中进行结构化性能比较提供了可靠的框架。SEAL 公开可用,并持续更新以支持新的基准。