LLM2D

摘要

arXiv:2410.10735v2 宣告类型: 修改摘要：在革命性依赖大量推理的领域中，大型语言模型（LLMs）准确的数学推理至关重要。然而，LLMs在某些数学推理方面经常遇到困难，导致推理错误和结果错误。为解决这些问题，我们提出了一个新颖的机制，即链式自我纠正（CoSC），专门用于嵌入LLMs的内在自我纠正能力，使它们能够验证和修正自己的结果。CoSC机制通过一系列自我纠正阶段运行。在每个阶段中，LLMs生成一个程序以解决给定的问题，使用基于程序的工具执行该程序以获取输出，随后验证该输出。根据验证结果，LLMs或继续下一个纠正阶段或最终确定答案。这种迭代的自我纠正过程使LLMs能够细化其推理步骤并提高数学推理的准确性。我们使用两阶段微调方法实现CoSC。首先，LLMs使用少量由GPT-4生成的种子数据进行训练。然后，我们通过使用大量自动生成的数据进一步增强CoSC，不再依赖于GPT-4。实验结果显示，与现有的开源LLMs相比，CoSC显著提升了标准数学数据集的性能。值得注意的是，我们的CoSC-Code-34B模型在具有挑战性的MATH数据集上取得了53.5%的分数，超过了ChatGPT、GPT-4以及多模态LLMs如GPT-4V和Gemini-1.0。重要的是，CoSC以零样本方式进行操作，无需提供示例。