摘要
arXiv:2410.10735v2 宣告类型: 修改
摘要:在革命性依赖大量推理的领域中,大型语言模型(LLMs)准确的数学推理至关重要。然而,LLMs在某些数学推理方面经常遇到困难,导致推理错误和结果错误。为解决这些问题,我们提出了一个新颖的机制,即链式自我纠正(CoSC),专门用于嵌入LLMs的内在自我纠正能力,使它们能够验证和修正自己的结果。CoSC机制通过一系列自我纠正阶段运行。在每个阶段中,LLMs生成一个程序以解决给定的问题,使用基于程序的工具执行该程序以获取输出,随后验证该输出。根据验证结果,LLMs或继续下一个纠正阶段或最终确定答案。这种迭代的自我纠正过程使LLMs能够细化其推理步骤并提高数学推理的准确性。我们使用两阶段微调方法实现CoSC。首先,LLMs使用少量由GPT-4生成的种子数据进行训练。然后,我们通过使用大量自动生成的数据进一步增强CoSC,不再依赖于GPT-4。实验结果显示,与现有的开源LLMs相比,CoSC显著提升了标准数学数据集的性能。值得注意的是,我们的CoSC-Code-34B模型在具有挑战性的MATH数据集上取得了53.5%的分数,超过了ChatGPT、GPT-4以及多模态LLMs如GPT-4V和Gemini-1.0。重要的是,CoSC以零样本方式进行操作,无需提供示例。