LLM2D
一种系统性方法用于评估大型语言模型的测试用例生成能力
A Systematic Approach for Assessing Large Language Models' Test Case Generation Capability
作者: Hung-Fu Chang, Mohammad Shokrolah Shirazi
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02866v1

摘要

arXiv:2502.02866v1 类型: cross 摘要: 软件测试确保软件产品质量和可靠性,但手动创建测试案例是一项劳动密集型工作。随着大型语言模型(LLMs)的兴起,使用LLMs创建单元测试逐渐引起了关注。然而,由于缺乏全面覆盖不同编程场景的标准基准评估,对LLMs生成测试案例的效果评估受到了限制。为了应对这一评估挑战以及缺乏用于评估的数据集,我们提出了一种基于控制流结构和变量使用组成生成基准(GBCV)的方法,该方法系统地生成用于评估LLMs测试生成能力的程序。通过利用基本的控制流结构和变量使用,GBCV提供了一种灵活的框架,可以创建从简单到复杂的程序谱系。由于GPT-4o和GPT-3-Turbo是公开可访问的模型,为了展示真实世界普通用户的使用案例,我们使用GBCV评估它们的性能。我们的研究发现,GPT-4o在复杂程序结构上表现更好,而所有模型在简单条件下都能有效检测边界值,但在算术计算方面面临挑战。这项研究突出了LLMs在测试生成方面的优势和局限性,提供了基准框架,并提出了未来改进的方向。