LLM2D

摘要

大型语言模型在简单的代码生成任务中表现出色，但在解决复杂问题方面仍面临挑战。这些挑战可能源于其推理和问题分解能力不足。为了解决这个问题，我们提出了一种基于推理增强的生成过程SRA-MCTS，它引导模型自主生成高质量的中间推理路径，从而形成一个正反馈循环，实现持续改进。我们的方法完全通过模型本身运行，无需额外的监督。通过合成自然语言推理路径并将其转换为可执行代码，该方法确保了分析的准确性并提高了解决复杂任务的成功率。实验结果表明，即使没有额外的监督信号，我们的方法也能在不同模型规模上实现性能改进，证明了小型模型自我改进的巨大潜力。此外，当传统的思维链（CoT）方法出现性能下降时，该方法仍然保持稳健，在pass@10等多样性指标上也观察到显著改进。我们鼓励进一步探索训练数据中的推理过程，以增强语言模型解决复杂问题的能力。我们的代码和数据已公开发布在https://github.com/DIRECT-BIT/SRA-MCTS。