LLM2D
多任务工具台:通过相关和动态任务评估基于LLM的智能代理的稳健性
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions
作者: Peijie Yu, Yifan Yang, Jinjian Li, Zelong Zhang, Haorui Wang, Xiao Feng, Feng Zhang
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.02623v2

摘要

arXiv:2504.02623v2 宣告类型: 替换 摘要: 大型语言模型(LLMs)由于其先进的理解和规划能力,显示出作为工具调用代理的强大潜力。用户越来越多地依赖基于LLM的代理通过迭代交互解决复杂的任务。然而,现有的基准主要关注单任务场景,未能捕捉到真实世界的复杂性。为了弥合这一差距,我们提出了多任务工具基准。在该基准中,每个测试案例包含多个相互关联的任务。这种设计要求代理能够动态适应不断变化的需求。此外,提出的基准探索了固定任务数量内的所有可能的任务切换模式。具体而言,我们提出了一种多代理数据生成框架来构建该基准。我们还提出了一种新方法,使用动态决策树评估代理决策的准确性和效率。对各种开源和闭源LLM的实验揭示了影响代理稳健性的关键因素,并为工具调用社会提供了可操作的见解。