摘要
arXiv:2502.11191v1 安全公告类型: 横向
摘要: 大型语言模型(LLMs)在金融、法律和医学等专业领域取得了显著的进展。然而,在网络安全领域,我们注意到缺少开源数据集,特别是缺乏高质量的网络安全预训练语料库,尽管许多研究表明,LLMs在其预训练过程中获取了知识。为了解决这一问题,我们提供了一整套涵盖所有主要训练阶段的数据集,包括预训练、指令微调和针对网络安全的推理提炼,其中包含特定的自我反思数据。广泛的消融研究证明了它们在公开的网络安全基准测试中的有效性。特别是,持续使用我们的数据集进行预训练导致整体评分提高了15.88%,而推理提炼则使CISSP安全认证得分提高了10%。我们将使用ODC-BY和MIT许可证释放所有数据集和训练的网络安全LLMs,以鼓励社区进一步开展研究。欲访问所有数据集和模型权重,请参见https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243。