摘要
大型语言模型(LLMs)在网络安全应用中展示了潜力,但也因幻觉和缺乏真实性等问题导致信心下降。现有基准提供了普遍评估,但未能充分解决LLMs在网络安全特定任务中的实际应用方面。为填补这一空白,我们引入了SECURE(安全提取、理解与推理评估),这是一个旨在评估LLMs在现实网络安全场景中表现的基准。SECURE包括六个专注于工业控制系统领域的数据集,用于评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务中的表现,揭示了它们在网络安全环境中的优缺点,并提供了提高LLMs作为网络安全咨询工具可靠性的建议。