摘要
arXiv:2504.21318v1 类型: 新
摘要: 我们介绍了 Phi-4-reasoning,这是一种拥有140亿参数的推理模型,其在复杂推理任务中表现出色。通过在精心筛选的“可教学”提示集(这些提示集具有合适的复杂性和多样性)以及使用 o3-mini 生成的推理示例上进行监督微调,Phi-4-reasoning 生成了详细的推理链,有效利用了推理时间的计算资源。我们进一步开发了 Phi-4-reasoning-plus,这是一种通过基于结果的强化学习短时期改进的变体,能够生成更长的推理痕迹,从而提供更高的性能。在多种推理任务中,这两种模型的表现显著优于开放权重的大规模模型,如 DeepSeek-R1-Distill-Llama-70B 模型,并接近全 DeepSeek-R1 模型的性能水平。我们的综合评估涵盖了数学和科学推理、编程、算法问题解决、计划和空间理解等多个基准。有趣的是,我们观察到这些改进对通用基准也有一定的转移效果。在本报告中,我们提供了关于培训数据、培训方法和评估的见解。我们表明,仔细的数据筛选对监督微调(SFT)的收益同样适用于推理语言模型,并且可以通过强化学习进一步增强。最后,我们的评估指出了提高我们评估推理模型性能和鲁棒性方法的机会。