LLM2D

摘要

arXiv:2504.02623v1 通知类型: 新摘要: 大型语言模型（LLMs）因其先进的理解和规划能力，在工具调用代理方面显示出强大的潜力。用户越来越多地依赖基于LLM的代理通过迭代交互解决复杂的任务。然而，现有的基准测试主要在单一任务场景中访问代理，未能捕捉到现实世界中的复杂性。为了填补这一缺口，我们提出了多任务工具基准。在此基准中，每个测试案例包含多个相互关联的任务。这种设计要求代理能够动态适应不断变化的需求。此外，提出的基准测试探讨了固定任务数量内的所有可能的任务切换模式。具体而言，我们提出了一种多代理数据生成框架来构建基准测试。我们还提出了一种新的方法，使用动态决策树评估代理决策的准确性和效率。在各种开源和闭源LLM上的实验揭示了影响代理稳健性的关键因素，并为工具调用社区提供了可行的见解。