LLM2D

摘要

arXiv:2411.11053v5 通告类型: 替换-交叉摘要: 大型语言模型在简单的代码生成任务中表现出色，但在处理复杂问题时仍面临挑战。这些挑战可能源自推理和问题分解能力不足。为了解决这一问题，我们提出了一种增强推理的数据生成过程，SRA-MCTS，它引导模型自主生成高质量的中间推理路径。这创建了一个正反馈循环，从而使模型能够持续改进。我们的方法完全通过模型本身进行，无需额外的监督。通过合成自然语言推理路径并将其转化为可执行代码，该方法确保了分析准确性，并提高了解决复杂任务的成功率。实验结果表明，即使没有额外的监督信号，我们的方法在不同模型规模上也能实现性能提升，展示了小型模型自我改进的巨大潜力。此外，在传统链式思考（CoT）方法表现下降时，该方法在多样性指标如pass@10方面也表现出显著改进。我们鼓励进一步探索训练数据中的推理过程，以增强语言模型处理复杂问题的能力。我们的代码和数据可在 https://github.com/DIRECT-BIT/SRA-MCTS 公开获取。