摘要
arXiv:2505.00949v3 宣告类型: replace-cross
摘要: 我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,具有出色的推理能力、推理效率以及适用于企业使用的开放许可。该家族包括三种规模的模型——Nano(8B)、Super(49B)和Ultra(253B),并在与最先进的推理模型如DeepSeek-R1竞争时表现出色,同时提供了更好的推理吞吐量和内存效率。在本报告中,我们讨论了这些模型的训练过程,其中包括使用Llama 3模型的神经架构搜索以加速推理、知识蒸馏以及持续的预训练,然后是一个以推理为重点的后训练阶段,分为两个主要部分:监督微调和大规模强化学习。Llama-Nemotron模型是支持动态推理切换的第一个开源模型,允许用户在推理过程中在标准聊天模式和推理模式之间切换。为了进一步支持开放研究并促进模型开发,我们提供了以下资源:1. 我们在商业上较为宽松的NVIDIA Open Model License Agreement下发布了Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。2. 我们发布了完整的后训练数据集:Llama-Nemotron-Post-Training-Dataset。3. 我们还发布了我们的训练代码库:NeMo、NeMo-Aligner和Megatron-LM。