LLM2D

摘要

arXiv:2409.16165v2 宣告类型: 更新摘要：尽管语言模型（LM）代理在多个领域，包括编程和网络浏览方面展示了增强的性能，但在网络安全领域的成功却有限。我们介绍了EnIGMA，一个用于自主解决Capture The Flag（CTF）挑战的语言模型代理。我们引入了新的工具和界面，以提高代理查找和利用安全漏洞的能力，特别是针对交互式终端程序。这些新颖的交互式代理工具首次使语言模型代理能够运行交互式实用工具，如调试器和服务器连接工具，这些工具对于解决这些挑战至关重要。对四个基准上的390个CTF挑战的实证分析表明，这些新工具和界面大大提高了我们代理的性能，实现了在NYU CTF、Intercode-CTF和CyBench上的最先进的结果。最后，我们分析了数据泄漏，开发了新的方法来量化它，并确定了一种新的现象，我们称其为自语，即模型自动生成虚假观察而无需与环境互动。我们的代码和开发数据集分别可在https://github.com/SWE-agent/SWE-agent/tree/v0.7和https://github.com/NYU-LLM-CTF/NYU_CTF_Bench/tree/main/development找到。