LLM2D

摘要

arXiv:2310.11409v5 宣告类型: replace-cross 摘要：渗透测试是软件安全测试的重要组成部分，允许组织识别并修复其系统中的漏洞，从而增强其针对网络攻击的防御机制。最近在渗透测试领域的一个进展是利用语言模型（LLMs）。我们探索了LLMs与渗透测试的交叉点，以了解它们在权限提升上下文中的能力与挑战。我们介绍了一种完全自动化的权限提升工具，用于评估LLMs在伦理黑客攻击方面的有效性，执行使用多种LLMs的基准测试，并调查其各自的测试结果。我们的结果显示，GPT-4-turbo 对漏洞的利用效率较高（33-83%的漏洞）。GPT-3.5-turbo 可以滥用16-50%的漏洞，而本地模型如Llama3只能利用0-33%的漏洞。我们分析了不同上下文大小、上下文学习、可选高级指导机制和内存管理技术的影响。我们讨论了LLMs面临的挑战，包括测试过程中保持专注、应对错误，最终将LLMs与人类黑客进行比较。当前版本的LLM引导权限提升原型可以在https://github.com/ipa-labs/hackingBuddyGPT找到。