LLM2D
基于GPT模型的提示工程技术在安全代码生成中的基准测试
Benchmarking Prompt Engineering Techniques for Secure Code Generation with GPT Models
作者: Marc Bruni, Fabio Gabrielli, Mohammad Ghafari, Martin Kropp
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06039v1

摘要

arXiv:2502.06039v1 安全公告类型: 交叉 摘要:提示工程减少了大型语言模型(LLMs)中的推理错误。然而,其在减轻LLM生成的代码中漏洞方面有效性的研究仍较少。为了解决这一差距,我们实现了一个基准,自动评估各种提示工程技术对代码安全的影响。该基准利用了两个经过同行评审的提示数据集,并使用静态扫描器大规模评估代码安全性。我们在GPT-3.5-turbo、GPT-4o和GPT-4o-mini上测试了多种提示工程技术。结果表明,对于GPT-4o和GPT-4o-mini,一种专注于安全性的提示前缀可以将安全漏洞的发生率降低56%。此外,所有测试的模型在使用迭代提示技术时,能够检测和修复先前生成的代码中41.9%至68.7%的漏洞。最后,我们引入了一个“提示代理”,展示了最有效的技术如何在实际开发工作流中应用。