LLM2D

摘要

大型语言模型 (LLMs) 在处理需要实时访问外部 API 的任务方面存在局限性。虽然已经开发了 ToolBench 和 APIGen 等多个基准来评估 LLM 的 API 使用能力，但它们往往存在一些问题，例如缺乏泛化能力、多步推理覆盖范围有限，以及由于实时 API 波动而导致的不稳定性。本文介绍了 SEAL，一个端到端的测试平台，旨在评估 LLM 在现实世界 API 使用中的表现。SEAL 标准化了现有的基准，集成了一个代理系统来测试 API 检索和规划，并通过引入一个由 GPT-4 驱动的 API 模拟器（带有缓存功能）来解决实时 API 的不稳定性，以进行确定性评估。我们的测试平台提供了一个全面的评估流程，涵盖 API 检索、API 调用和最终响应，为在各种现实场景中进行结构化性能比较提供了可靠的框架。SEAL 公开可用，并持续更新以支持新的基准。