摘要
arXiv:2504.01866v2 宣告类型: 替换-交叉
摘要:大规模软件开发的快速发展对传统测试方法提出了越来越高的要求,经常导致效率、准确性和覆盖率方面的瓶颈。我们提出了一种新颖的软件测试视角,认为错误检测和减少代码中的错误是两个相互关联的问题,共同目标是在有限的资源下减少错误。我们将之前在人工智能辅助编程方面的研究进行了扩展,这支持代码自动补全和基于聊天机器人的问答,将其应用到了软件测试领域。我们引入了测试助手 Copilot,这是一种自动生成测试的系统,能够同步错误检测和代码库更新,利用基于上下文的检索增强生成 (RAG) 来增强大语言模型 (LLMs) 的能力。我们的评估结果显示,在错误检测准确性方面提高了 31.2%,在关键测试覆盖率方面提高了 12.6%,并且用户接受率提高了 10.5%,突显了人工智能驱动技术在现代软件开发实践中的变革潜力。