LLM2D

摘要

arXiv:2504.19384v1 宣告类型: cross 摘要: 软件工程 (RE) 对开发复杂和受监管的软件项目至关重要。鉴于将利益相关者输入转化为一致的软件设计所面临的挑战，定性数据分析 (QDA) 提供了一种处理非正式数据的系统方法。然而，传统的 QDA 方法耗时且高度依赖人工。在这篇论文中，我们探索了大型语言模型 (LLMs)，包括 GPT-4、Mistral 和 LLaMA-2，在 RE 中提高 QDA 任务的效果。我们的研究评估了 LLMs 在归纳（零样本）和演绎（单样本、少量样本）标注任务中的性能，结果显示，在演绎设置中，GPT-4 在柯南系数评分中超过 0.7，达到了与人类分析师相当的一致性，而零样本性能仍然有限。详细的、富有上下文的提示显著提高了标注的准确性和一致性，尤其是在演绎场景中，并且 GPT-4 在多次运行中表现出高度可靠性。这些发现揭示了 LLMs 可能在 RE 中支持 QDA 的潜力，通过减少人工努力的同时保持标注质量。结构化的标签可以自动提供需求的可追溯性，并可以直接作为领域模型中的类，便于系统化的软件设计。