LLM2D

摘要

arXiv:2504.13626v1 交叉类型：cross 摘要：最近在大规模推理模型（LRMs）方面的进展已经证明了扩展测试时计算可以增强多个任务推理能力的有效性。然而，LRMs通常面临“过度思考”的问题，即模型生成大量冗余的推理步骤，但带来的性能提升有限。现有工作依赖微调来缓解过度思考的问题，这需要额外的数据、非传统训练设置、安全对齐的风险性错配和较差的泛化能力。通过实证分析，我们揭示了LRMs行为的一个重要特征，即在思考标记（$\texttt{<think>} \texttt{</think>}$）之间插入由较小模型生成的外部CoTs（潜在推理步骤），可以有效地控制模型生成更少的推理步骤。基于这些见解，我们提出了一种简单而有效的管道，即ThoughtMani，以使LRMs绕过不必要的中间步骤，显著降低计算成本。我们进行了广泛的实验来验证ThoughtMani的实用性和效率。例如，当应用于QwQ-32B在LiveBench/Code数据集上时，ThoughtMani保持了原始性能，并将输出标记数量减少了约30%，且CoT生成器带来的额外开销较少。此外，我们发现ThoughtMani平均增强了安全对齐10%。由于模型供应商通常同时提供不同大小的模型，ThoughtMani提供了一种有效的方式，构建更高效且易于访问的LRMs以供实际应用使用。