摘要
arXiv:2410.19817v2 宣告类型: 替换
摘要:数学推理一直是大型语言模型(LLMs)的难题。然而,逐步链式思考(CoT)推理的引入在很大程度上提升了LLMs的数学能力。尽管取得了这些进展,当前的方法要么需要大量的推理数据集进行训练,要么依赖于经常牺牲计算精度的少样本方法。为了解决数学推理中的这些瓶颈,我们提出了一种名为逐步指导推理的新方法,该方法比少样本方法更稳定和具有更大的泛化能力,并且不需要进一步微调模型。在该方法中,LLMs 反思小的推理步骤,类似于人类在决定下一步做什么时的商榷过程。通过将这一反思过程融入推理阶段,LLMs 可以有效地从一个步骤引导到下一个步骤。通过广泛的实验,我们展示了逐步指导推理显著增强了最先进的语言模型的数学性能。Qwen2-72B-Instruct 在 MMLU-STEM 上的表现优于其专门针对数学的对应版本 Qwen2.5-72B-Math-Instruct,得分为 90.9%,而后者为 87.3%。Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 在数学领域的平均得分分别从 27.1% 提高到了 36.3% 和从 36.5% 提高到了 47.4%。