LLM2D
ReasonFlux:通过扩展思维模板进行层次化大语言模型推理
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
作者: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.06772v1

摘要

arXiv:2502.06772v1 声称类型: cross 摘要:我们展示了通过扩展思辨模板进行分层LLM推理可以有效地优化推理搜索空间,并在数学推理能力方面超越了诸如OpenAI o1-preview和DeepSeek V3等强大LLM的能力。我们仅用8个GPU训练了我们的ReasonFlux-32B模型,并引入了三项创新:(i)一个结构化且通用的思辨模板库,包含约500个高级思辨模板,能够泛化到类似或相关的问题推理;(ii)在一个序列的思辨模板上进行分层强化学习,而不是长期的长串思维过程(CoTs),优化基础LLM以计划出用于逐步处理复杂问题的最佳模板轨迹;(iii)一种全新的推理扩展系统,能够在推理时适配性地扩展思辨模板,使分层LLM推理成为可能。我们的ReasonFlux-32B在模板轨迹包含按顺序排列的思辨模板的情况下,显著提高了数学推理能力到最先进的水平。值得注意的是,在MATH基准测试中,其准确度达到了91.2%,比o1-preview高出6.7%。在USA数学奥林匹克(AIME)基准测试中,ReasonFlux-32B解决了平均56.7%的问题,分别超越了o1-preview和DeepSeek-V3 27%和45%。代码:https://github.com/Gen-Verse/ReasonFlux