LLM2D

摘要

arXiv:2502.02866v1 类型: cross 摘要: 软件测试确保软件产品质量和可靠性，但手动创建测试案例是一项劳动密集型工作。随着大型语言模型（LLMs）的兴起，使用LLMs创建单元测试逐渐引起了关注。然而，由于缺乏全面覆盖不同编程场景的标准基准评估，对LLMs生成测试案例的效果评估受到了限制。为了应对这一评估挑战以及缺乏用于评估的数据集，我们提出了一种基于控制流结构和变量使用组成生成基准（GBCV）的方法，该方法系统地生成用于评估LLMs测试生成能力的程序。通过利用基本的控制流结构和变量使用，GBCV提供了一种灵活的框架，可以创建从简单到复杂的程序谱系。由于GPT-4o和GPT-3-Turbo是公开可访问的模型，为了展示真实世界普通用户的使用案例，我们使用GBCV评估它们的性能。我们的研究发现，GPT-4o在复杂程序结构上表现更好，而所有模型在简单条件下都能有效检测边界值，但在算术计算方面面临挑战。这项研究突出了LLMs在测试生成方面的优势和局限性，提供了基准框架，并提出了未来改进的方向。