LLM2D

摘要

arXiv:2502.06898v1 类别：交叉学科摘要：近年来，人工智能的进步使得处理更大输入成为可能，这促使日常软件开发者越来越多地依赖基于聊天的大型语言模型（LLMs），如GPT-3.5和GPT-4，以在整个文件中检测漏洞，而不仅仅在函数内部。这一新的开发实践要求研究人员急需调查常用LLMs是否能有效地分析大型文件输入，以便为软件开发者和工程师提供有关这一新兴技术趋势的优缺点的及时见解。因此，本文旨在评估几种最先进的基于聊天的LLMs，包括GPT模型，在检测文件漏洞方面的有效性。我们进行了成本高昂的研究，探究LLMs性能在不同漏洞类型、输入大小和文件内漏洞位置方面如何变化。为了使我们的研究具有足够的统计功效，我们只能重点关注三种最常见的（同时也是最危险的）漏洞：跨站脚本攻击（XSS）、SQL注入和路径遍历。我们的研究结果表明，LLMs检测这些漏洞的有效性强烈地受漏洞位置和输入整体大小的影响。具体来说，无论漏洞类型如何，当检测位于较大文件末尾的漏洞时，LLMs往往会显著（p < .05）表现不佳，我们称之为“末尾迷失”效应。最后，为了进一步支持软件开发者和实践者，我们也探讨了这些LLMs的最佳输入大小，并提出了一个简单的策略来识别它，该策略可以应用于其他模型和漏洞类型。最终，我们展示了调整输入大小可以显著提高基于LLM的漏洞检测能力，所有模型的平均召回率提高超过37%。