摘要
背景:手动测试对于发现自动化测试遗漏的问题至关重要,但指定准确的验证条件具有挑战性。目的:本研究旨在探讨使用大型语言模型(LLMs)生成手动测试验证条件的方法。方法:我们进行了两项独立且互补的探索性研究。第一项研究涉及使用2个闭源和6个开源LLMs生成手动测试步骤的验证条件,并评估其与原始验证条件的相似度。第二项研究涉及招募软件测试专业人员,评估他们对生成验证条件与原始验证条件的感知和一致性。结果:开源模型Mistral-7B和Phi-3-mini-4k在生成手动测试验证条件方面表现出与闭源模型如Gemini-1.5-flash和GPT-3.5-turbo相当的效力和一致性。然而,专业测试人员之间的一致性水平略高于40%,表明既有潜力也有改进空间。尽管一些LLM生成的验证条件被认为优于原始验证条件,但也存在AI幻觉问题,即验证条件显著偏离预期。结论:我们通过使用8种不同的LLMs生成了一个包含37,040个测试验证条件的数据集。尽管这些模型显示出潜力,但相对较低的40%一致性水平突显了进一步改进的必要性。提高生成验证条件的准确性、相关性和清晰度对于确保在实际测试场景中的更大可靠性至关重要。