LLM2D
MiMo:从预训练到后训练,解锁语言模型的推理潜力
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining
作者: Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07608v1

摘要

arXiv:2505.07608v1 类型: cross 摘要: 我们介绍了一个专为推理任务设计的大语言模型 MiMo-7B,该模型在预训练和后训练阶段都进行了优化。在预训练阶段,我们增强了数据预处理管道,并采用三阶段数据混合策略,以增强基础模型的推理潜力。MiMo-7B-Base 在 2.5 万亿令牌上进行预训练,并额外添加了多令牌预测目标,以提高性能和加速推理速度。在后训练阶段,我们精选了一个包含 13 万个可验证的数学和编程问题的数据集,用于强化学习,结合了基于测试难度的代码奖励方案,以缓解稀疏奖励问题,并采用战略性数据重采样以稳定训练。广泛的评估表明,MiMo-7B-Base 具有非凡的推理潜力,甚至超越了更大的 32B 模型。最终的 RL 调优模型 MiMo-7B-RL 在数学、代码和一般推理任务上表现出色,超越了 OpenAI 的 o1-mini 模型。模型检查点可在 https://github.com/xiaomimimo/MiMo 获取。