LLM2D

摘要

arXiv:2502.11191v1 安全公告类型: 横向摘要: 大型语言模型（LLMs）在金融、法律和医学等专业领域取得了显著的进展。然而，在网络安全领域，我们注意到缺少开源数据集，特别是缺乏高质量的网络安全预训练语料库，尽管许多研究表明，LLMs在其预训练过程中获取了知识。为了解决这一问题，我们提供了一整套涵盖所有主要训练阶段的数据集，包括预训练、指令微调和针对网络安全的推理提炼，其中包含特定的自我反思数据。广泛的消融研究证明了它们在公开的网络安全基准测试中的有效性。特别是，持续使用我们的数据集进行预训练导致整体评分提高了15.88%，而推理提炼则使CISSP安全认证得分提高了10%。我们将使用ODC-BY和MIT许可证释放所有数据集和训练的网络安全LLMs，以鼓励社区进一步开展研究。欲访问所有数据集和模型权重，请参见https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243。