LLM2D

摘要

arXiv:2505.06913v1 安全工程领域中的应用类型：跨领域摘要：从自动化入侵测试到软件发布前发现零日攻击，代理AI在安全工程中带来了巨大的前景。这一强大能力同样伴随着相似的威胁：安全和研究社区必须在恶意行为者利用这种技术进行网络犯罪之前构建起其模型。因此，我们提出并评估了RedTeamLLM，这是一种综合架构，具有全面的安全模型，用于自动化的渗透测试任务。RedTeamLLM遵循三个关键步骤：总结、推理和执行，这些步骤嵌入了其操作能力。这一新型框架解决了四个开放挑战：计划修正、内存管理、上下文窗口约束，以及通用性与专业化之间的平衡。评估通过自动化解决一系列入门级但不简单的CTF挑战来进行。特别评估了我们代理AI框架的推理能力的贡献。