摘要
arXiv:2504.11741v1 通告类型: 新
摘要: 最近的监督微调(SFT)方法在数学推理任务上显著提高了语言模型的性能,即使在模型以小型规模训练时也是如此。然而,通过这种微调增强的具体推理能力仍然知之甚少。在本文中,我们对AIME24数据集中的模型性能进行了详细分析,以理解推理能力如何演变。我们发现了一个梯级结构的问题难度,将问题分为四层(简单、中等、困难和极其困难),并确定了各层之间的具体需求。我们发现,从简单层到中等层的进步需要采用R1推理风格并在最少微调的情况下使用(500-1K个实例),而在推理链的每一步中,困难级的问题经常出现模型错误,尽管有对数缩放,准确率仍会停滞在约65%左右。极其困难的问题提出了根本不同的挑战;它们需要当前模型普遍难以应对的非传统问题解决技能。此外,我们发现精心挑选的小规模数据集提供的优势有限;扩展数据集规模显然更为有效。我们的分析为提高语言模型在数学推理方面的性能提供了更清晰的路线图。