LLM2D

摘要

arXiv:2409.01524v2 宣布类型: 重写-交叉摘要: 自校正是一个新颖的方法，可以激发大型语言模型（LLMs）的潜在推理能力。它涉及到在LLMs解决推理问题时检测和纠正推理过程中的错误。然而，近期的研究并没有将自校正视为LLMs的自发性和固有能力，而是通过后生成、外部知识引入、多模型协作和技术类似的方法来实现这种纠正。在本文中，我们提出了一系列称为S$^3$c-Math的数学LLMs，具有自发步骤级自我纠正的数学推理能力。这种能力帮助LLMs识别它们正在进行的推理是否包含错误，并同时纠正这些错误，以生成更可靠的答案。我们提出了一种方法，采用步骤级采样的方法构建步骤级自我纠正数据，以实现这种能力。此外，我们实施了一种训练策略，使用上述构建的数据来赋予LLMs自发步骤级自我纠正的能力。我们的数据和方法在各种基础LLMs中得到了验证，并在GSM8K、MATH和其他数学基准上的评估中展示了显著的进步。据我们所知，我们是第一个引入LLMs在数学推理中自发步骤级自我纠正能力的研究。