LLM2D

摘要

大型语言模型（LLM）可用于分析来自网络犯罪论坛的网络威胁情报（CTI）数据，这些数据包含有关新兴网络威胁的广泛信息和关键讨论。然而，迄今为止，LLM 在此类关键任务中的准确性和效率水平尚未得到彻底评估。因此，本研究评估了基于 OpenAI GPT-3.5-turbo 模型 [8] 构建的 LLM 系统提取 CTI 信息的性能。为此，从三个网络犯罪论坛 - XSS、Exploit_in 和 RAMP - 中提取了超过 700 次每日对话的随机样本，并指示 LLM 系统总结对话并预测 10 个关键 CTI 变量，例如是否正在针对大型组织和/或关键基础设施，仅使用简单的自然语言指令。然后，两名编码员审查了每次对话，并评估了 LLM 提取的信息是否准确。LLM 系统表现良好，平均准确率为 96.23%，平均精确率为 90%，平均召回率为 88.2%。发现了增强模型的多种方法，例如需要帮助 LLM 区分故事和过去事件，以及在提示中注意动词时态。然而，本研究的结果突出了使用 LLM 进行网络威胁情报的相关性。