LLM2D
评估大型语言模型在生成等价类和边界值单元测试中的能力
Evaluating Large Language Models for the Generation of Unit Tests with Equivalence Partitions and Boundary Values
作者: Mart\'in Rodr\'iguez, Gustavo Rossi, Alejandro Fernandez
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.09830v1

摘要

arXiv:2505.09830v1 Announce Type: 剪切 摘要:单元测试的设计和实现是许多程序员忽视的一项复杂任务。本研究评估了大型语言模型(LLMs)在自动生成测试用例方面的潜力,将其与手动测试进行比较。开发了一种优化的提示,将代码和需求相结合,涵盖了等价类划分和边界值等关键情况。通过定量指标和手动定性分析,比较了LLMs与训练有素程序员的优势与劣势。结果表明,LLMs的有效性取决于精心设计的提示、稳健的实现和精确的需求说明。尽管具有灵活性且前景广阔,但LLMs仍然需要人类监督。本研究强调了手动定性分析在单元测试评估自动化中的重要性,作为必不可少的补充。