LLM2D
Phi-4推理技术报告
Phi-4-reasoning Technical Report
作者: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio C\'esar Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21318v1

摘要

arXiv:2504.21318v1 类型: 新 摘要: 我们介绍了 Phi-4-reasoning,这是一种拥有140亿参数的推理模型,其在复杂推理任务中表现出色。通过在精心筛选的“可教学”提示集(这些提示集具有合适的复杂性和多样性)以及使用 o3-mini 生成的推理示例上进行监督微调,Phi-4-reasoning 生成了详细的推理链,有效利用了推理时间的计算资源。我们进一步开发了 Phi-4-reasoning-plus,这是一种通过基于结果的强化学习短时期改进的变体,能够生成更长的推理痕迹,从而提供更高的性能。在多种推理任务中,这两种模型的表现显著优于开放权重的大规模模型,如 DeepSeek-R1-Distill-Llama-70B 模型,并接近全 DeepSeek-R1 模型的性能水平。我们的综合评估涵盖了数学和科学推理、编程、算法问题解决、计划和空间理解等多个基准。有趣的是,我们观察到这些改进对通用基准也有一定的转移效果。在本报告中,我们提供了关于培训数据、培训方法和评估的见解。我们表明,仔细的数据筛选对监督微调(SFT)的收益同样适用于推理语言模型,并且可以通过强化学习进一步增强。最后,我们的评估指出了提高我们评估推理模型性能和鲁棒性方法的机会。