LLM2D

摘要

arXiv:2504.21318v1 类型: 新摘要: 我们介绍了 Phi-4-reasoning，这是一种拥有140亿参数的推理模型，其在复杂推理任务中表现出色。通过在精心筛选的“可教学”提示集（这些提示集具有合适的复杂性和多样性）以及使用 o3-mini 生成的推理示例上进行监督微调，Phi-4-reasoning 生成了详细的推理链，有效利用了推理时间的计算资源。我们进一步开发了 Phi-4-reasoning-plus，这是一种通过基于结果的强化学习短时期改进的变体，能够生成更长的推理痕迹，从而提供更高的性能。在多种推理任务中，这两种模型的表现显著优于开放权重的大规模模型，如 DeepSeek-R1-Distill-Llama-70B 模型，并接近全 DeepSeek-R1 模型的性能水平。我们的综合评估涵盖了数学和科学推理、编程、算法问题解决、计划和空间理解等多个基准。有趣的是，我们观察到这些改进对通用基准也有一定的转移效果。在本报告中，我们提供了关于培训数据、培训方法和评估的见解。我们表明，仔细的数据筛选对监督微调（SFT）的收益同样适用于推理语言模型，并且可以通过强化学习进一步增强。最后，我们的评估指出了提高我们评估推理模型性能和鲁棒性方法的机会。