摘要
arXiv:2505.09830v1 Announce Type: 剪切
摘要:单元测试的设计和实现是许多程序员忽视的一项复杂任务。本研究评估了大型语言模型(LLMs)在自动生成测试用例方面的潜力,将其与手动测试进行比较。开发了一种优化的提示,将代码和需求相结合,涵盖了等价类划分和边界值等关键情况。通过定量指标和手动定性分析,比较了LLMs与训练有素程序员的优势与劣势。结果表明,LLMs的有效性取决于精心设计的提示、稳健的实现和精确的需求说明。尽管具有灵活性且前景广阔,但LLMs仍然需要人类监督。本研究强调了手动定性分析在单元测试评估自动化中的重要性,作为必不可少的补充。