LLM2D

摘要

arXiv:2502.07374v1 宣告类型: 新摘要: 大型推理模型(LRMs)通过遵循包含反思、回溯和自我验证的长链条思维(Long CoT)来解决复杂的推理问题。然而，激发Long CoT的训练技术和数据需求仍然不够明确。在本文中，我们发现一个大型语言模型(LLM)可以通过数据高效的监督微调(SFT)和参数高效的低秩适应(LoRA)有效地学习Long CoT推理。仅使用17000个长链条思维训练样本，Qwen2.5-32B-Instruct模型在各种数学和编程基准测试中取得了显著改进，包括AIME 2024 上的56.7% (+40.0%) 和LiveCodeBench 上的57.0% (+8.1%)，与专有的o1-preview模型的成绩44.6%和59.1%相当。更重要的是，我们发现Long CoT的结构对学习过程至关重要，而单个推理步骤的内容影响很小。影响内容的扰动，如使用错误样本训练或删除推理关键词，对性能的影响很小。相比之下，破坏Long CoT逻辑一致性的结构修改，如洗牌或删除推理步骤，会显著降低准确性。例如，一个在错误答案的Long CoT样本上训练的模型，其准确率只比完全正确样本低3.2%。这些见解加深了我们对如何在LLMs中激发推理能力的理解，并突显了高效训练下一代推理模型的关键考虑因素。这是我们之前发布的Sky-T1-32B-Preview模型的学术论文。相关代码可在 https://github.com/NovaSky-AI/SkyThought 获取。