LLM2D

摘要

arXiv:2502.06772v1 声称类型: cross 摘要：我们展示了通过扩展思辨模板进行分层LLM推理可以有效地优化推理搜索空间，并在数学推理能力方面超越了诸如OpenAI o1-preview和DeepSeek V3等强大LLM的能力。我们仅用8个GPU训练了我们的ReasonFlux-32B模型，并引入了三项创新：（i）一个结构化且通用的思辨模板库，包含约500个高级思辨模板，能够泛化到类似或相关的问题推理；（ii）在一个序列的思辨模板上进行分层强化学习，而不是长期的长串思维过程（CoTs），优化基础LLM以计划出用于逐步处理复杂问题的最佳模板轨迹；（iii）一种全新的推理扩展系统，能够在推理时适配性地扩展思辨模板，使分层LLM推理成为可能。我们的ReasonFlux-32B在模板轨迹包含按顺序排列的思辨模板的情况下，显著提高了数学推理能力到最先进的水平。值得注意的是，在MATH基准测试中，其准确度达到了91.2%，比o1-preview高出6.7%。在USA数学奥林匹克（AIME）基准测试中，ReasonFlux-32B解决了平均56.7%的问题，分别超越了o1-preview和DeepSeek-V3 27%和45%。代码：https://github.com/Gen-Verse/ReasonFlux