LLM2D

摘要

arXiv:2504.12329v1 宣告类型: cross 摘要: 最近的进展通过后训练来增强模型的推理性能，这通常需要昂贵的训练管道，并且仍然遭受效率低下、输出时间过长的问题。我们引入了推测性思考，这是一个无训练框架，能够使大型推理模型在推理层面引导较小的模型进行推理，这与在令牌层面工作的推测性解码不同。我们的方法基于两个观察：(1) 在结构分隔符如"\n\n"之后经常出现推理支持性令牌如"wait"，这些令牌作为反思或继续的信号；(2) 较大的模型表现出更强的控制反射行为的能力，减少了不必要的回溯，同时提高了推理质量。通过战略性地将反射步骤委派给一个更有能力的模型，我们的方法显著提升了推理模型的推理准确性，同时缩短了其输出时间。在32B推理模型的辅助下，1.5B模型在MATH500上的准确性从83.2%提升到89.4%，标志着显著提高了6.2%。同时，平均输出长度从5439个令牌减少到4583个令牌，减少了15.7%。此外，当应用于非推理模型（Qwen-2.5-7B-Instruct）时，我们的框架使其在相同的基准测试上的准确性从74.0%提高到81.8%，实现了7.8%的相对改进。