摘要
arXiv:2406.05590v3 通告类型: 替换交叉
摘要:大型语言模型(LLMs)今天正被部署在各个领域。然而,它们在解决网络安全领域中的捕获旗帜(CTF)挑战方面的能力尚未得到充分评估。为了解决这个问题,我们开发了一种新的方法来评估LLMs在解决CTF挑战方面的性能,通过创建一个专为此类应用设计的可扩展、开源基准数据库。该数据库包含了LLM测试和自适应学习的元数据,汇集了来自流行竞赛的多样化的CTF挑战。利用LLMs先进的函数调用能力,我们构建了一个完全自动化的系统,具有增强的工作流程和对外部工具调用的支持。我们的基准数据集和自动化框架使我们能够评估五种LLMs的表现,涵盖黑盒和开源模型。这项工作为未来研究提高LLMs在交互式网络安全任务和自动化任务规划方面的效率奠定了基础。通过提供一个专门的基准测试,我们的项目为开发、测试和改进基于LLM的方法提供了理想的平台,这些方法用于脆弱性检测和解决。在这些挑战上评估LLMs并将其性能与人类表现进行比较,可以为我们理解AI驱动的网络安全解决方案在实现现实威胁管理方面的潜力提供见解。我们已将基准数据集开源,并可通过以下链接访问:https://github.com/NYU-LLM-CTF/NYU_CTF_Bench。同时,我们的游乐场自动化框架也已开源,可通过以下链接访问:https://github.com/NYU-LLM-CTF/llm_ctf_automation。