摘要
arXiv:2504.13656v1 类别:交叉学科
摘要:大型语言模型(LLMs)迅速改变了软件开发,尤其是在代码生成方面的应用。然而,它们不一致的表现,容易出现幻觉和质量问题,使得程序理解变得复杂,并阻碍了代码的可维护性。研究表明,提示工程——设计输入以引导LLMs生成相关输出的做法——可能有助于解决这些问题。在这方面,研究人员已经引入了提示模式,这是一种结构化的模板,旨在引导用户提出请求。然而,提示模式对代码质量的影响尚未得到充分探讨。对这种关系的更好理解将有助于推进我们对如何有效使用LLMs进行代码生成的集体知识,从而提高它们在当前软件开发中的可理解性。本文通过使用Dev-GPT数据集,实证研究了提示模式对代码质量,特别是可维护性、安全性和可靠性的影响。结果显示,零样本提示最常见,其次是带思维链的零样本和少量样本。跨距检验(Kruskal-Wallis检验)分析了7583个代码文件后表明,在质量指标方面没有显著差异,这表明在ChatGPT辅助的代码生成中,提示结构可能不会对这些质量指标产生重大影响。