LLM2D

摘要

arXiv:2504.15546v1 Announce Type: cross 摘要：大型语言模型（LLMs）使自主代理能够利用外部工具或功能执行复杂的流程工作，这些工具或功能通常通过企业系统中的REST API提供。然而，直接将这些API作为工具使用面临着挑战，因为它们具有复杂的输入模式、详尽的响应以及经常模糊不清的文档。当前的工具测试基准没有充分解决这些问题的复杂性，导致在评估基于代理的自动化中API的准备度方面存在关键空白。在本工作中，我们提出了一种新型测试框架，旨在评估和提高REST API作为基于LLM的代理工具的功能准备度。该框架将API转换为工具，生成全面的测试用例，将测试用例转化为适合代理的自然语言指令，丰富工具定义并评估代理正确调用API、处理输入和响应的能力。为了提供可操作的见解，我们分析了750个测试用例的结果，并介绍了详细的错误分类，包括输入误解、输出处理不一致和模式不匹配。此外，我们将这些测试用例进行分类，以便于调试和工具集成的优化。本工作为企业API作为工具的启用提供了基础步骤，提高了它们在基于代理的应用程序中的可用性。