摘要
黑客攻击对网络安全构成重大威胁,每年造成数十亿美元的损失。为了减轻这些风险,人们采用合规黑客攻击或渗透测试来识别系统和网络中的漏洞。大型语言模型 (LLM) 的最新进展已显示出在包括网络安全在内的各个领域的潜力。然而,目前尚缺乏一个全面、开放、端到端的自动化渗透测试基准来推动进展并评估这些模型在安全环境中的能力。本文介绍了一个用于基于 LLM 的自动化渗透测试的新型开放基准,以解决这一关键差距。我们首先使用最先进的 PentestGPT 工具评估了包括 GPT-4o 和 Llama 3.1-405B 在内的 LLM 的性能。我们的研究结果表明,虽然 Llama 3.1 表现优于 GPT-4o,但这两个模型目前都无法执行完全自动化、端到端的渗透测试。接下来,我们推进现有技术水平,并提出消融研究,以深入了解如何改进 PentestGPT 工具。我们的研究阐明了 LLM 在渗透测试的各个方面(例如枚举、利用和权限提升)所面临的挑战。这项工作为不断发展的 AI 辅助网络安全知识体系做出了贡献,并为未来使用大型语言模型进行自动化渗透测试的研究奠定了基础。