LLM2D
LLMs可以 Easily 学习从示范进行推理,结构,而不是内容才是关键!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
作者: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07374v1

摘要

arXiv:2502.07374v1 宣告类型: 新 摘要: 大型推理模型(LRMs)通过遵循包含反思、回溯和自我验证的长链条思维(Long CoT)来解决复杂的推理问题。然而,激发Long CoT的训练技术和数据需求仍然不够明确。在本文中,我们发现一个大型语言模型(LLM)可以通过数据高效的监督微调(SFT)和参数高效的低秩适应(LoRA)有效地学习Long CoT推理。仅使用17000个长链条思维训练样本,Qwen2.5-32B-Instruct模型在各种数学和编程基准测试中取得了显著改进,包括AIME 2024 上的56.7% (+40.0%) 和LiveCodeBench 上的57.0% (+8.1%),与专有的o1-preview模型的成绩44.6%和59.1%相当。更重要的是,我们发现Long CoT的结构对学习过程至关重要,而单个推理步骤的内容影响很小。影响内容的扰动,如使用错误样本训练或删除推理关键词,对性能的影响很小。相比之下,破坏Long CoT逻辑一致性的结构修改,如洗牌或删除推理步骤,会显著降低准确性。例如,一个在错误答案的Long CoT样本上训练的模型,其准确率只比完全正确样本低3.2%。这些见解加深了我们对如何在LLMs中激发推理能力的理解,并突显了高效训练下一代推理模型的关键考虑因素。这是我们之前发布的Sky-T1-32B-Preview模型的学术论文。相关代码可在 https://github.com/NovaSky-AI/SkyThought 获取。