摘要
arXiv:2504.19384v1 宣告类型: cross
摘要: 软件工程 (RE) 对开发复杂和受监管的软件项目至关重要。鉴于将利益相关者输入转化为一致的软件设计所面临的挑战,定性数据分析 (QDA) 提供了一种处理非正式数据的系统方法。然而,传统的 QDA 方法耗时且高度依赖人工。在这篇论文中,我们探索了大型语言模型 (LLMs),包括 GPT-4、Mistral 和 LLaMA-2,在 RE 中提高 QDA 任务的效果。我们的研究评估了 LLMs 在归纳(零样本)和演绎(单样本、少量样本)标注任务中的性能,结果显示,在演绎设置中,GPT-4 在柯南系数评分中超过 0.7,达到了与人类分析师相当的一致性,而零样本性能仍然有限。详细的、富有上下文的提示显著提高了标注的准确性和一致性,尤其是在演绎场景中,并且 GPT-4 在多次运行中表现出高度可靠性。这些发现揭示了 LLMs 可能在 RE 中支持 QDA 的潜力,通过减少人工努力的同时保持标注质量。结构化的标签可以自动提供需求的可追溯性,并可以直接作为领域模型中的类,便于系统化的软件设计。