LLM2D

摘要

arXiv:2409.16165v2 宣布类型: 替换摘要：虽然语言模型（LM）代理在多个领域，包括编程和网络浏览方面已经显示出增强的性能，但在网络安全领域的成功却受到限制。我们引入了EnIGMA，这是一种代理模型，可以自主解决网络安全竞赛（CTF）挑战。我们介绍了新的工具和界面，以提高代理模型发现和利用安全漏洞的能力，重点关注交互式终端程序。这些新颖的交互式代理工具使语言模型代理首次能够运行诸如调试器和服务器连接工具之类的交互式实用程序，这些工具对于解决这些挑战是必不可少的。对跨越四个基准的390个CTF挑战进行的实证分析表明，这些新工具和界面显着提高了代理模型的性能，实现了在NYU CTF、Intercode-CTF和CyBench上的最先进结果。最后，我们分析了数据泄漏现象，开发了新的方法来量化数据泄漏，并识别了一种我们称之为自言自语（soliloquizing）的现象——模型在不与环境交互的情况下生成虚构的观察。我们的代码和开发数据集可在以下链接获取：https://github.com/SWE-agent/SWE-agent/tree/v0.7 和 https://github.com/NYU-LLM-CTF/NYU_CTF_Bench/tree/main/development。