LLM2D

摘要

尽管语言模型 (LM) 代理在许多领域展现出越来越大的潜力，但由于设计过于简单且缺乏此领域的基本功能，它们在网络安全方面的成功有限。我们提出了 EnIGMA，一个用于自动解决夺旗 (CTF) 挑战的 LM 代理。EnIGMA 引入了新的代理-计算机接口 (ACI) 以提高 CTF 挑战的成功率。我们建立了新颖的交互式代理工具概念，使 LM 代理能够运行对这些挑战至关重要的交互式命令行实用程序。对 EnIGMA 在三个不同基准测试中超过 350 个 CTF 挑战的实证分析表明，提供一套强大的新工具并演示其用法有助于 LM 解决复杂问题，并在 NYU CTF 和 Intercode-CTF 基准测试中取得最先进的结果。最后，我们讨论了有关 ACI 设计和代理在网络安全任务上的行为的见解，这些见解强调了为 LM 代理调整现实世界工具的必要性。