LLM2D

摘要

arXiv:2505.07608v1 类型: cross 摘要: 我们介绍了一个专为推理任务设计的大语言模型 MiMo-7B，该模型在预训练和后训练阶段都进行了优化。在预训练阶段，我们增强了数据预处理管道，并采用三阶段数据混合策略，以增强基础模型的推理潜力。MiMo-7B-Base 在 2.5 万亿令牌上进行预训练，并额外添加了多令牌预测目标，以提高性能和加速推理速度。在后训练阶段，我们精选了一个包含 13 万个可验证的数学和编程问题的数据集，用于强化学习，结合了基于测试难度的代码奖励方案，以缓解稀疏奖励问题，并采用战略性数据重采样以稳定训练。广泛的评估表明，MiMo-7B-Base 具有非凡的推理潜力，甚至超越了更大的 32B 模型。最终的 RL 调优模型 MiMo-7B-RL 在数学、代码和一般推理任务上表现出色，超越了 OpenAI 的 o1-mini 模型。模型检查点可在 https://github.com/xiaomimimo/MiMo 获取。