LLM2D
GTA:通用工具代理基准测试
GTA: A Benchmark for General Tool Agents
作者: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2407.08713v2

摘要

大型语言模型(LLM)与各种工具相集成以开发通用代理已成为研究重点。但这对LLM的工具使用能力提出了挑战。然而,现有工具使用评估与现实场景之间存在明显差距。目前的评估通常使用AI生成的查询、单步任务、虚拟工具和纯文本交互,无法有效揭示代理在现实世界中解决问题的能力。为了解决这个问题,我们提出了GTA,一个用于通用工具代理的基准测试,它具有三个主要方面:(i)真实的使用者查询:人工编写的查询具有简单的现实世界目标,但工具使用隐含,需要LLM推理合适的工具并规划解决方案步骤。(ii)实际部署的工具:一个配备了感知、操作、逻辑和创造力类别工具的评估平台,用于评估代理的实际任务执行性能。(iii)真实的多种模态输入:真实的图像文件,例如空间场景、网页截图、表格、代码片段以及打印/手写材料,用作查询上下文,以紧密贴合现实世界场景。我们设计了229个现实世界任务和可执行工具链来评估主流LLM。我们的研究结果表明,现实世界的用户查询对现有的LLM来说具有挑战性,GPT-4完成的任务不到50%,大多数LLM的完成率低于25%。此评估揭示了当前LLM在现实世界场景中工具使用能力的瓶颈,这为推进通用工具代理的发展提供了未来方向。代码和数据集可在https://github.com/open-compass/GTA获取。