LLM2D

摘要

arXiv:2504.15546v2 宣告类型: replace-cross 摘要: 大型语言模型（LLMs）使自主代理能够使用外部工具或功能执行复杂的流程工作，这些工具或功能通常通过企业系统中的REST API提供。然而，直接将这些API作为工具使用面临着挑战，因为它们具有复杂的输入结构、详尽的响应以及经常模糊的文档说明。现有的工具测试基准未能充分解决这些复杂性，导致评估API在代理驱动自动化中的准备工作存在关键缺口。在本文中，我们提出了一种新的测试框架，旨在评估和增强REST API作为LLM代理工具的功能准备。我们的框架将API转换为工具，为API生成全面的测试用例，将测试用例转换为适合代理的自然语言指令，丰富工具定义并评估代理正确调用API及其输入和响应的能力。为了提供可操作的见解，我们分析了750个测试用例的结果，详细分类了错误，包括输入误解、输出处理不一致和结构不匹配。此外，我们将这些测试用例分类，以简化工具集成的调试和优化。这项工作为企业API作为工具的启用奠定了基础，提高了它们在基于代理的应用程序中的可使用性。