摘要
arXiv:2504.02623v3 通告类型: 替换
摘 要: 大型语言模型(LLMs)由于其高级的理解和规划能力,显示出作为工具调用代理的强大潜力。用户越来越依赖基于LLM的代理通过迭代交互来解决复杂的任务。然而,现有的基准测试主要在单一任务场景中访问代理,无法捕捉现实世界的复杂性。为解决这一问题,我们提出了多任务工具基准。在该基准中,每个测试案例包含多个相互关联的任务。这种设计要求代理能够动态适应不断变化的需求。此外,提出的基准测试探究了在固定任务数量下的所有可能的任务切换模式。具体来说,我们提出了一个多代理数据生成框架来构建基准。我们还提出了一种新的方法,使用动态决策树来评估代理决策的准确性和效率。针对多种开源和封闭源的LLM的实验揭示了影响代理鲁棒性的关键因素,并为工具调用社会提供了可操作的见解。