摘要
arXiv:2505.07608v1 类型: cross
摘要: 我们介绍了一个专为推理任务设计的大语言模型 MiMo-7B,该模型在预训练和后训练阶段都进行了优化。在预训练阶段,我们增强了数据预处理管道,并采用三阶段数据混合策略,以增强基础模型的推理潜力。MiMo-7B-Base 在 2.5 万亿令牌上进行预训练,并额外添加了多令牌预测目标,以提高性能和加速推理速度。在后训练阶段,我们精选了一个包含 13 万个可验证的数学和编程问题的数据集,用于强化学习,结合了基于测试难度的代码奖励方案,以缓解稀疏奖励问题,并采用战略性数据重采样以稳定训练。广泛的评估表明,MiMo-7B-Base 具有非凡的推理潜力,甚至超越了更大的 32B 模型。最终的 RL 调优模型 MiMo-7B-RL 在数学、代码和一般推理任务上表现出色,超越了 OpenAI 的 o1-mini 模型。模型检查点可在 https://github.com/xiaomimimo/MiMo 获取。