LLM2D
大型语言模型在网络安全威胁情报方面可靠性不足
Large Language Models are Unreliable for Cyber Threat Intelligence
作者: Emanuele Mezzi, Fabio Massacci, Katja Tuma
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23175v1

摘要

arXiv:2503.23175v1 类型:跨领域 摘要:近年来,有若干研究认为,大型语言模型(LLMs)可以用于缓解网络安全领域的数据洪流问题,通过提高网络安全威胁情报(CTI)任务的自动化水平。本文提出了一个评估方法,该方法不仅允许在零样本学习、少量样本学习和微调的情况下测试LLMs在CTI任务上的表现,还能量化它们的一致性和置信水平。我们使用三个最先进的LLMs和一个包含350份威胁情报报告的数据集进行实验,并提供了有关依赖LLMs进行CTI可能带来的安全风险的新证据。我们展示了LLMs在处理真实大小的报告时,无法保证足够的性能,同时还表现出不一致性和过度自信。少量样本学习和微调只能部分改善结果,这引起了人们对在缺乏标注数据集且置信度是关键因素的CTI场景中使用LLMs的可能性的怀疑。