LLM2D
ToolSandbox:一个状态ful、对话式、交互式的评估基准,用于评估LLM工具使用能力
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities
作者: Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2408.04682v2

摘要

arXiv:2408.04682v2 工具辅助类型: 替换-交叉 摘要: 最近的大语言模型(LLMs)进展激发了对工具辅助LLM解决实际挑战的研究兴趣,这要求对工具使用能力进行全面评估。尽管先前的工作要么基于无状态的Web服务(RESTful API),基于单轮用户提示进行评估,要么基于离策对话轨迹进行评估,ToolSandbox包括有状态工具执行、工具之间的隐式状态依赖、内置用户模拟器支持在策对话评估以及针对任意轨迹的中间和最终里程碑的动态评估策略。我们展示了开源和专有模型之间的显著性能差距,并证明了在ToolSandbox中定义的复杂任务如状态依赖、规范化和信息不足,即使是最先进的LLM也无法轻松应对,提供了工具使用LLM能力的新见解。ToolSandbox评估框架已发布在 https://github.com/apple/ToolSandbox