LLM2D

摘要

大型语言模型（LLM）与各种工具相集成以开发通用代理已成为研究重点。但这对LLM的工具使用能力提出了挑战。然而，现有工具使用评估与现实场景之间存在明显差距。目前的评估通常使用AI生成的查询、单步任务、虚拟工具和纯文本交互，无法有效揭示代理在现实世界中解决问题的能力。为了解决这个问题，我们提出了GTA，一个用于通用工具代理的基准测试，它具有三个主要方面：（i）真实的使用者查询：人工编写的查询具有简单的现实世界目标，但工具使用隐含，需要LLM推理合适的工具并规划解决方案步骤。（ii）实际部署的工具：一个配备了感知、操作、逻辑和创造力类别工具的评估平台，用于评估代理的实际任务执行性能。（iii）真实的多种模态输入：真实的图像文件，例如空间场景、网页截图、表格、代码片段以及打印/手写材料，用作查询上下文，以紧密贴合现实世界场景。我们设计了229个现实世界任务和可执行工具链来评估主流LLM。我们的研究结果表明，现实世界的用户查询对现有的LLM来说具有挑战性，GPT-4完成的任务不到50%，大多数LLM的完成率低于25%。此评估揭示了当前LLM在现实世界场景中工具使用能力的瓶颈，这为推进通用工具代理的发展提供了未来方向。代码和数据集可在https://github.com/open-compass/GTA获取。