LLM2D

摘要

背景：手动测试对于发现自动化测试遗漏的问题至关重要，但指定准确的验证条件具有挑战性。目的：本研究旨在探讨使用大型语言模型（LLMs）生成手动测试验证条件的方法。方法：我们进行了两项独立且互补的探索性研究。第一项研究涉及使用2个闭源和6个开源LLMs生成手动测试步骤的验证条件，并评估其与原始验证条件的相似度。第二项研究涉及招募软件测试专业人员，评估他们对生成验证条件与原始验证条件的感知和一致性。结果：开源模型Mistral-7B和Phi-3-mini-4k在生成手动测试验证条件方面表现出与闭源模型如Gemini-1.5-flash和GPT-3.5-turbo相当的效力和一致性。然而，专业测试人员之间的一致性水平略高于40%，表明既有潜力也有改进空间。尽管一些LLM生成的验证条件被认为优于原始验证条件，但也存在AI幻觉问题，即验证条件显著偏离预期。结论：我们通过使用8种不同的LLMs生成了一个包含37,040个测试验证条件的数据集。尽管这些模型显示出潜力，但相对较低的40%一致性水平突显了进一步改进的必要性。提高生成验证条件的准确性、相关性和清晰度对于确保在实际测试场景中的更大可靠性至关重要。