LLM2D

摘要

arXiv:2503.23175v1 类型:跨领域摘要：近年来，有若干研究认为，大型语言模型（LLMs）可以用于缓解网络安全领域的数据洪流问题，通过提高网络安全威胁情报（CTI）任务的自动化水平。本文提出了一个评估方法，该方法不仅允许在零样本学习、少量样本学习和微调的情况下测试LLMs在CTI任务上的表现，还能量化它们的一致性和置信水平。我们使用三个最先进的LLMs和一个包含350份威胁情报报告的数据集进行实验，并提供了有关依赖LLMs进行CTI可能带来的安全风险的新证据。我们展示了LLMs在处理真实大小的报告时，无法保证足够的性能，同时还表现出不一致性和过度自信。少量样本学习和微调只能部分改善结果，这引起了人们对在缺乏标注数据集且置信度是关键因素的CTI场景中使用LLMs的可能性的怀疑。