LLM2D

摘要

arXiv:2504.01866v2 宣告类型: 替换-交叉摘要：大规模软件开发的快速发展对传统测试方法提出了越来越高的要求，经常导致效率、准确性和覆盖率方面的瓶颈。我们提出了一种新颖的软件测试视角，认为错误检测和减少代码中的错误是两个相互关联的问题，共同目标是在有限的资源下减少错误。我们将之前在人工智能辅助编程方面的研究进行了扩展，这支持代码自动补全和基于聊天机器人的问答，将其应用到了软件测试领域。我们引入了测试助手 Copilot，这是一种自动生成测试的系统，能够同步错误检测和代码库更新，利用基于上下文的检索增强生成 (RAG) 来增强大语言模型 (LLMs) 的能力。我们的评估结果显示，在错误检测准确性方面提高了 31.2%，在关键测试覆盖率方面提高了 12.6%，并且用户接受率提高了 10.5%，突显了人工智能驱动技术在现代软件开发实践中的变革潜力。