LLM2D

摘要

arXiv:2502.07374v2 宣告类型：替换摘要：大型推理模型（LRMs）通过长链推理（Long CoT，Long Chain-of-Thought）来解决复杂的推理问题，Long CoT 包括反思、回溯和自我验证。然而，引发 Long CoT 的训练技术和数据要求仍然不清楚。在这项工作中，我们发现一个大型语言模型（LLM）可以通过数据高效监督微调（SFT）和参数高效低秩适应（LoRA）有效地学习 Long CoT 推理。仅通过 17,000 个长 CoT 训练样本，Qwen2.5-32B-Instruct 模型在各种数学和编码基准测试中取得了显著改进，包括在 AIME 2024 中达到 56.7%（+40.0%）和在 LiveCodeBench 中达到 57.0%（+8.1%），与专有的 o1-preview 模型的分数 44.6% 和 59.1% 相匹敌。更重要的是，我们发现 Long CoT 的结构对学习过程至关重要，而单个推理步骤的内容影响甚微。影响内容的扰动，如在错误样本上训练或移除推理关键词，对性能几乎没有影响。相比之下，破坏 Long CoT 逻辑一致性的结构修改，如打乱或删除推理步骤，显著降低了准确性。例如，训练于包含错误答案的 Long CoT 样本的模型，其准确率相较于完全正确的样本仅低 3.2%。这些见解加深了我们对如何在 LLM 中引发推理能力的理解，并突显了高效训练下一代推理模型的关键考虑因素。这是我们之前发布的 Sky-T1-32B-Preview 模型的学术论文。代码可在 https://github.com/NovaSky-AI/SkyThought 获取。