LLM2D

摘要

arXiv:2504.01866v1 交叉公告类型: cross 摘要: 大规模软件开发的快速步伐对传统的测试方法提出了日益增长的要求，经常导致效率、准确性和覆盖率上的瓶颈。我们从一个新的角度提出了软件测试，认为错误检测与代码中引入更少错误是两个相互关联的问题，它们共享一个目标：在有限的资源下减少错误。我们扩展了我们之前关于AI辅助编程的工作，该工作支持代码自动补齐和聊天机器人驱动的问答，将其应用到软件测试领域。我们引入了Copilot for Testing，这是一种自动化测试系统，可以同步错误检测与代码库更新，利用基于上下文的检索增强生成（RAG）来增强大型语言模型（LLMs）的能力。我们的评估表明，错误检测准确性提高了31.2%，关键测试覆盖率提高了12.6%，用户接受率提高了10.5%，突显了基于AI的技术在现代软件开发实践中的变革潜力。