LLM2D

摘要

arXiv:2410.19817v2 宣告类型: 替换摘要：数学推理一直是大型语言模型（LLMs）的难题。然而，逐步链式思考（CoT）推理的引入在很大程度上提升了LLMs的数学能力。尽管取得了这些进展，当前的方法要么需要大量的推理数据集进行训练，要么依赖于经常牺牲计算精度的少样本方法。为了解决数学推理中的这些瓶颈，我们提出了一种名为逐步指导推理的新方法，该方法比少样本方法更稳定和具有更大的泛化能力，并且不需要进一步微调模型。在该方法中，LLMs 反思小的推理步骤，类似于人类在决定下一步做什么时的商榷过程。通过将这一反思过程融入推理阶段，LLMs 可以有效地从一个步骤引导到下一个步骤。通过广泛的实验，我们展示了逐步指导推理显著增强了最先进的语言模型的数学性能。Qwen2-72B-Instruct 在 MMLU-STEM 上的表现优于其专门针对数学的对应版本 Qwen2.5-72B-Math-Instruct，得分为 90.9%，而后者为 87.3%。Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 在数学领域的平均得分分别从 27.1% 提高到了 36.3% 和从 36.5% 提高到了 47.4%。