摘要
大型语言模型在简单的代码生成任务中表现出色,但在解决复杂问题方面仍面临挑战。这些挑战可能源于其推理和问题分解能力不足。为了解决这个问题,我们提出了一种基于推理增强的生成过程SRA-MCTS,它引导模型自主生成高质量的中间推理路径,从而形成一个正反馈循环,实现持续改进。我们的方法完全通过模型本身运行,无需额外的监督。通过合成自然语言推理路径并将其转换为可执行代码,该方法确保了分析的准确性并提高了解决复杂任务的成功率。实验结果表明,即使没有额外的监督信号,我们的方法也能在不同模型规模上实现性能改进,证明了小型模型自我改进的巨大潜力。此外,当传统的思维链(CoT)方法出现性能下降时,该方法仍然保持稳健,在pass@10等多样性指标上也观察到显著改进。我们鼓励进一步探索训练数据中的推理过程,以增强语言模型解决复杂问题的能力。我们的代码和数据已公开发布在https://github.com/DIRECT-BIT/SRA-MCTS。