LLM2D
对于脚本小子是好消息吗?评估自动化exploit生成的大语言模型
Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation
作者: David Jin, Qian Fu, Yuekang Li
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.01065v1

摘要

arXiv:2505.01065v1 安全公告类型:交叉 摘要:大型语言模型(LLMs)在代码相关任务上展现了惊人的能力,引发了对其在自动化利用生成(AEG)方面潜在风险的担忧。本文首次系统地研究了LLMs在AEG方面的有效性,评估了它们的合作能力和技术水平。为减轻数据集偏差,我们引入了一个基准,其中包含五个软件安全实验室的重新整理版本。此外,我们设计了一个基于LLM的攻击者,系统地提示LLM进行利用生成。我们的实验表明,GPT-4和GPT-4o在合作性方面表现出高水平,与未经审查的模型相当,而Llama3最具有抵抗力。然而,没有一个模型能够成功生成重新整理实验室的利用,尽管GPT-4o的最小错误表明LLM驱动的AEG有望取得进展。