LLM2D
Primus: 用于网络安全LLM训练的先行开源数据集集合
Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training
作者: Yao-Ching Yu, Tsun-Han Chiang, Cheng-Wei Tsai, Chien-Ming Huang, Wen-Kwang Tsao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11191v1

摘要

arXiv:2502.11191v1 安全公告类型: 横向 摘要: 大型语言模型(LLMs)在金融、法律和医学等专业领域取得了显著的进展。然而,在网络安全领域,我们注意到缺少开源数据集,特别是缺乏高质量的网络安全预训练语料库,尽管许多研究表明,LLMs在其预训练过程中获取了知识。为了解决这一问题,我们提供了一整套涵盖所有主要训练阶段的数据集,包括预训练、指令微调和针对网络安全的推理提炼,其中包含特定的自我反思数据。广泛的消融研究证明了它们在公开的网络安全基准测试中的有效性。特别是,持续使用我们的数据集进行预训练导致整体评分提高了15.88%,而推理提炼则使CISSP安全认证得分提高了10%。我们将使用ODC-BY和MIT许可证释放所有数据集和训练的网络安全LLMs,以鼓励社区进一步开展研究。欲访问所有数据集和模型权重,请参见https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243。