LLM2D

摘要

arXiv:2505.09830v1 Announce Type: 剪切摘要：单元测试的设计和实现是许多程序员忽视的一项复杂任务。本研究评估了大型语言模型（LLMs）在自动生成测试用例方面的潜力，将其与手动测试进行比较。开发了一种优化的提示，将代码和需求相结合，涵盖了等价类划分和边界值等关键情况。通过定量指标和手动定性分析，比较了LLMs与训练有素程序员的优势与劣势。结果表明，LLMs的有效性取决于精心设计的提示、稳健的实现和精确的需求说明。尽管具有灵活性且前景广阔，但LLMs仍然需要人类监督。本研究强调了手动定性分析在单元测试评估自动化中的重要性，作为必不可少的补充。