LLM2D
SECURE:网络安全咨询领域大型语言模型的基准测试
SECURE: Benchmarking Large Language Models for Cybersecurity Advisory
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2405.20441v3

摘要

大型语言模型(LLMs)在网络安全应用中展示了潜力,但也因幻觉和缺乏真实性等问题导致信心下降。现有基准提供了普遍评估,但未能充分解决LLMs在网络安全特定任务中的实际应用方面。为填补这一空白,我们引入了SECURE(安全提取、理解与推理评估),这是一个旨在评估LLMs在现实网络安全场景中表现的基准。SECURE包括六个专注于工业控制系统领域的数据集,用于评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务中的表现,揭示了它们在网络安全环境中的优缺点,并提供了提高LLMs作为网络安全咨询工具可靠性的建议。