LLM2D

摘要

大型语言模型（LLMs）在网络安全应用中展示了潜力，但也因幻觉和缺乏真实性等问题导致信心下降。现有基准提供了普遍评估，但未能充分解决LLMs在网络安全特定任务中的实际应用方面。为填补这一空白，我们引入了SECURE（安全提取、理解与推理评估），这是一个旨在评估LLMs在现实网络安全场景中表现的基准。SECURE包括六个专注于工业控制系统领域的数据集，用于评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务中的表现，揭示了它们在网络安全环境中的优缺点，并提供了提高LLMs作为网络安全咨询工具可靠性的建议。