LLM2D
LLMs可以轻松地从示范中学习推理,结构而不是内容才是关键!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
作者: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Eric Tang, Sumanth Hegde, Kourosh Hakhamaneshi, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.07374v2

摘要

arXiv:2502.07374v2 宣告类型:替换 摘要:大型推理模型(LRMs)通过长链推理(Long CoT,Long Chain-of-Thought)来解决复杂的推理问题,Long CoT 包括反思、回溯和自我验证。然而,引发 Long CoT 的训练技术和数据要求仍然不清楚。在这项工作中,我们发现一个大型语言模型(LLM)可以通过数据高效监督微调(SFT)和参数高效低秩适应(LoRA)有效地学习 Long CoT 推理。仅通过 17,000 个长 CoT 训练样本,Qwen2.5-32B-Instruct 模型在各种数学和编码基准测试中取得了显著改进,包括在 AIME 2024 中达到 56.7%(+40.0%)和在 LiveCodeBench 中达到 57.0%(+8.1%),与专有的 o1-preview 模型的分数 44.6% 和 59.1% 相匹敌。更重要的是,我们发现 Long CoT 的结构对学习过程至关重要,而单个推理步骤的内容影响甚微。影响内容的扰动,如在错误样本上训练或移除推理关键词,对性能几乎没有影响。相比之下,破坏 Long CoT 逻辑一致性的结构修改,如打乱或删除推理步骤,显著降低了准确性。例如,训练于包含错误答案的 Long CoT 样本的模型,其准确率相较于完全正确的样本仅低 3.2%。这些见解加深了我们对如何在 LLM 中引发推理能力的理解,并突显了高效训练下一代推理模型的关键考虑因素。这是我们之前发布的 Sky-T1-32B-Preview 模型的学术论文。代码可在 https://github.com/NovaSky-AI/SkyThought 获取。