摘要
arXiv:2409.01524v2 宣布类型: 重写-交叉
摘要: 自校正是一个新颖的方法,可以激发大型语言模型(LLMs)的潜在推理能力。它涉及到在LLMs解决推理问题时检测和纠正推理过程中的错误。然而,近期的研究并没有将自校正视为LLMs的自发性和固有能力,而是通过后生成、外部知识引入、多模型协作和技术类似的方法来实现这种纠正。在本文中,我们提出了一系列称为S$^3$c-Math的数学LLMs,具有自发步骤级自我纠正的数学推理能力。这种能力帮助LLMs识别它们正在进行的推理是否包含错误,并同时纠正这些错误,以生成更可靠的答案。我们提出了一种方法,采用步骤级采样的方法构建步骤级自我纠正数据,以实现这种能力。此外,我们实施了一种训练策略,使用上述构建的数据来赋予LLMs自发步骤级自我纠正的能力。我们的数据和方法在各种基础LLMs中得到了验证,并在GSM8K、MATH和其他数学基准上的评估中展示了显著的进步。据我们所知,我们是第一个引入LLMs在数学推理中自发步骤级自我纠正能力的研究。