LLM2D

摘要

arXiv:2406.05590v3 通告类型: 替换交叉摘要：大型语言模型（LLMs）今天正被部署在各个领域。然而，它们在解决网络安全领域中的捕获旗帜（CTF）挑战方面的能力尚未得到充分评估。为了解决这个问题，我们开发了一种新的方法来评估LLMs在解决CTF挑战方面的性能，通过创建一个专为此类应用设计的可扩展、开源基准数据库。该数据库包含了LLM测试和自适应学习的元数据，汇集了来自流行竞赛的多样化的CTF挑战。利用LLMs先进的函数调用能力，我们构建了一个完全自动化的系统，具有增强的工作流程和对外部工具调用的支持。我们的基准数据集和自动化框架使我们能够评估五种LLMs的表现，涵盖黑盒和开源模型。这项工作为未来研究提高LLMs在交互式网络安全任务和自动化任务规划方面的效率奠定了基础。通过提供一个专门的基准测试，我们的项目为开发、测试和改进基于LLM的方法提供了理想的平台，这些方法用于脆弱性检测和解决。在这些挑战上评估LLMs并将其性能与人类表现进行比较，可以为我们理解AI驱动的网络安全解决方案在实现现实威胁管理方面的潜力提供见解。我们已将基准数据集开源，并可通过以下链接访问：https://github.com/NYU-LLM-CTF/NYU_CTF_Bench。同时，我们的游乐场自动化框架也已开源，可通过以下链接访问：https://github.com/NYU-LLM-CTF/llm_ctf_automation。