摘要
arXiv:2505.00949v1 宣告类型: cross
摘要: 我们介绍了Llama-Nemotron系列模型,这是一个具有异构推理能力的开放模型家族,能够提供卓越的推理能力、推断效率,并且拥有适用于企业使用的开放许可。该家族包含三种规模的模型——Nano(8B)、Super(49B)和Ultra(253B),并在推理性能和内存效率方面优于当前最先进的推理模型DeepSeek-R1,同时还能提供竞争力的表现。在本报告中,我们讨论了这些模型的训练方法,这涉及从Llama 3模型使用神经架构搜索以加速推理、进行知识蒸馏以及继续预训练,随后是一个以推理为中心的后训练阶段,包含两个主要部分:监督微调和大规模强化学习。Llama-Nemotron模型是首次支持动态推理切换的开源模型,在推断过程中允许用户在标准聊天模式和推理模式之间切换。为支持开放研究并促进模型开发,我们提供了以下资源:1. 我们在具有商业宽容性的NVIDIA Open Model License Agreement下发布了Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。2. 我们发布了完整的后训练数据集:Llama-Nemotron-Post-Training-Dataset。3. 我们还发布了我们的训练代码库:NeMo、NeMo-Aligner和Megatron-LM。