LLM2D

摘要

arXiv:2504.20781v1 类型:交叉摘要:软件架构决策的设计理由(DR)指的是架构选择背后的推理,在软件开发的不同阶段提供了有价值的见解。然而,在实践中,由于开发人员缺乏动机和努力,DR 经常未能充分记录。随着大型语言模型(LLMs)的最新进展,它们在文本理解、推理和生成方面的能力可能使生成和恢复架构决策的DR成为可能。在本研究中,我们评估了LLMs在生成架构决策DR方面的性能。首先,我们收集了50个Stack Overflow(SO)帖子、25个GitHub问题和25个GitHub讨论,涉及架构决策,以构建一个包含100个架构相关问题的数据集。然后,我们选择了五种LLMs,以三种提示策略生成架构决策的DR,包括零样本、思路链(CoT)和基于LLM的代理。以人类专家提供的DR为地面真实值,使用三种提示策略生成的LLM的DR精度范围为0.267到0.278,召回率范围为0.627到0.715, F1分数范围为0.351到0.389。此外,人类专家未提及的DR论据中有64.45%到69.42%是有帮助的,4.12%到4.87%的论据存在不确定的正确性,1.59%到3.24%的论据可能是误导性的。基于这些结果,我们进一步讨论了三种提示策略的优缺点以及LLM生成的DR的优点和局限性。