LLM2D

摘要

arXiv:2505.07686v1 宣告类型: 新摘要: 随着测试时缩放逐渐成为大规模语言模型社区的热点研究领域，高级后训练方法越来越强调延长链式思维（CoT）生成长度，从而增强推理能力，接近Deepseek R1类推理模型。然而，最近的研究表明，即使是有Qwen3这样的推理模型也一致地表现出CoT生成中过度冗余的思虑问题。这个问题源于传统的结果奖励强化学习对中间推理步骤的系统性忽视。本文提出了序贯组衰减奖励策略优化（简称S-GRPO），这是一种新颖的强化学习方法，能够赋予模型确定推理步骤充分性的能力，从而触发CoT生成的早期退出。具体而言，与GRPO不同，后者在同一时间并行地选择多个可能的完成方式（平行组），我们选择生成一个CoT中的多个时间位置，允许模型在思考后生成答案（序贯组），分别执行。对于序贯组中的正确答案，我们根据位置赋予奖励，并且越后的奖励越低，从而强化模型在早期阶段以更早的思考退出来生成更高质量的答案的行为。实验评估表明该方法与最先进的推理模型（包括Qwen3和Deepseek蒸馏模型）兼容，通过在GSM8K、AIME 2024、AMC 2023、MATH-500和GPQA钻石基准上实现35.4%至61.1%的序列长度减少，同时在准确率上实现了0.72%至6.08%的提升。