摘要
大型语言模型(LLM)可用于分析来自网络犯罪论坛的网络威胁情报(CTI)数据,这些数据包含有关新兴网络威胁的广泛信息和关键讨论。然而,迄今为止,LLM 在此类关键任务中的准确性和效率水平尚未得到彻底评估。因此,本研究评估了基于 OpenAI GPT-3.5-turbo 模型 [8] 构建的 LLM 系统提取 CTI 信息的性能。为此,从三个网络犯罪论坛 - XSS、Exploit_in 和 RAMP - 中提取了超过 700 次每日对话的随机样本,并指示 LLM 系统总结对话并预测 10 个关键 CTI 变量,例如是否正在针对大型组织和/或关键基础设施,仅使用简单的自然语言指令。然后,两名编码员审查了每次对话,并评估了 LLM 提取的信息是否准确。LLM 系统表现良好,平均准确率为 96.23%,平均精确率为 90%,平均召回率为 88.2%。发现了增强模型的多种方法,例如需要帮助 LLM 区分故事和过去事件,以及在提示中注意动词时态。然而,本研究的结果突出了使用 LLM 进行网络威胁情报的相关性。