LLM2D

摘要

arXiv:2501.08598v2 通知类型: 交叉替换摘要：现代网络服务严重依赖于REST API，通常通过OpenAPI规范进行文档说明。这一标准的广泛应用导致了开发了许多基于OpenAPI规范生成测试用例的黑盒测试工具。尽管大型语言模型（LLMs）展示了有希望的测试生成能力，但其在REST API测试中的应用仍然基本未被探索。我们提出了LlamaRestTest，这是一种新颖的方法，它使用两个自定义的LLM（通过微调和量化Llama3-8B模型并使用挖掘的REST API示例值和参数间依赖数据集创建），生成现实的测试输入，在测试过程中通过分析服务器响应发现参数间的依赖关系。我们在包括Spotify在内的12个真实服务上评估了LlamaRestTest，将其与RESTGPT（一个基于GPT的规范增强工具）以及几种先进的REST API测试工具（包括RESTler、MoRest、EvoMaster和ARAT-RL）进行了比较。我们的结果显示，微调使较小的模型能够在检测可操作的参数依赖规则和生成有效的REST API测试输入方面超越更大的模型。我们还评估了从基础的Llama3-8B模型到不同微调版本的各种工具配置，并探索了多种量化技术，包括2位、4位和8位整数格式。我们的研究表明，在REST API测试中，小语言模型可以与大语言模型表现得一样好，甚至更好，在有效性和效率上有良好的平衡。此外，LlamaRestTest在代码覆盖率和内部服务器错误识别方面甚至超越了使用RESTGPT增强规范的最先进的REST API测试工具。