摘要
arXiv:2408.04682v2 工具辅助类型: 替换-交叉
摘要: 最近的大语言模型(LLMs)进展激发了对工具辅助LLM解决实际挑战的研究兴趣,这要求对工具使用能力进行全面评估。尽管先前的工作要么基于无状态的Web服务(RESTful API),基于单轮用户提示进行评估,要么基于离策对话轨迹进行评估,ToolSandbox包括有状态工具执行、工具之间的隐式状态依赖、内置用户模拟器支持在策对话评估以及针对任意轨迹的中间和最终里程碑的动态评估策略。我们展示了开源和专有模型之间的显著性能差距,并证明了在ToolSandbox中定义的复杂任务如状态依赖、规范化和信息不足,即使是最先进的LLM也无法轻松应对,提供了工具使用LLM能力的新见解。ToolSandbox评估框架已发布在 https://github.com/apple/ToolSandbox