摘要
arXiv:2505.05315v1 宣告类型: cross
摘要:大型推理模型(LRMs)通过生成扩展的推理链(Chain of Thoughts, CoT)在复杂任务上取得了显著进展。然而,它们不受控制的输出长度在实际部署中带来了重大挑战,其中在计算、延迟或标记的令牌上的推理时间预算受到严格限制。我们提出了一种名为弹性推理的新框架,该框架通过将推理明确地分为两个阶段——思考和解决方案,并分别分配预算,从而实现可扩展的推理链。在测试时,弹性推理优先考虑解决方案片段的完整性,显著提高了在资源紧张条件下的可靠性。为了训练出能在截断思考过程中保持鲁棒性的模型,我们引入了一种轻量级的预算限制回放策略,将其集成到GRPO中,该策略教导模型在思考过程被提前截断时能够进行适应性推理,并且在不需要额外训练的情况下有效地泛化到未见的预算限制。在数学(AIME, MATH500)和编程(LiveCodeBench, Codeforces)基准测试上进行的实验结果表明,弹性推理在严格的预算限制下表现稳健,而训练成本显著低于基线方法。令人惊讶的是,我们的方法甚至在不受约束的设置下也能产生更简洁和高效的推理。弹性推理为大规模可控推理这一紧迫挑战提供了一个有原则且实用的解决方案。