LLM2D
S^3cMath: 自发的步骤级自我修正使大型语言模型成为更好的数学推理者
S^3cMath: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners
作者: Yuchen Yan, Jin Jiang, Yang Liu, Yixin Cao, Xin Xu, Mengdi Zhang, Xunliang Cai, Jian Shao
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2409.01524v2

摘要

arXiv:2409.01524v2 宣布类型: 重写-交叉 摘要: 自校正是一个新颖的方法,可以激发大型语言模型(LLMs)的潜在推理能力。它涉及到在LLMs解决推理问题时检测和纠正推理过程中的错误。然而,近期的研究并没有将自校正视为LLMs的自发性和固有能力,而是通过后生成、外部知识引入、多模型协作和技术类似的方法来实现这种纠正。在本文中,我们提出了一系列称为S$^3$c-Math的数学LLMs,具有自发步骤级自我纠正的数学推理能力。这种能力帮助LLMs识别它们正在进行的推理是否包含错误,并同时纠正这些错误,以生成更可靠的答案。我们提出了一种方法,采用步骤级采样的方法构建步骤级自我纠正数据,以实现这种能力。此外,我们实施了一种训练策略,使用上述构建的数据来赋予LLMs自发步骤级自我纠正的能力。我们的数据和方法在各种基础LLMs中得到了验证,并在GSM8K、MATH和其他数学基准上的评估中展示了显著的进步。据我们所知,我们是第一个引入LLMs在数学推理中自发步骤级自我纠正能力的研究。