摘要
arXiv:2504.07986v1 Announce Type: cross
摘要:大规模语言模型(LLMs),如 OpenAI 的 o1 系列,在扩展链式思考(CoT)推理机制下展示了复杂的推理任务能力。然而,最近的研究揭示了 CoT 推理轨迹中的大量冗余,这不仅增加了推理延迟,还通过对不必要的推理路径产生关注而负向影响了模型性能。为解决这一问题,我们研究了 LLMs 的内部推理结构,并将其分类为三种主要思维类型:执行思维、反思思维和过渡思维。此外,我们的分析表明,过度的反思思维和过渡思维与失败案例密切相关,并且这些思维类别在潜在空间中表现出明显的分离。基于这些发现,我们引入了 SEAL(可控推理校准),这是一种无需训练的方法,可无缝校准 CoT 过程,提高准确率同时展示出显著的效率提升。SEAL 包括一个离线阶段,用于在潜在空间中提取推理引导向量,然后通过使用引导向量进行表示干预来实时校准推理轨迹。值得注意的是,引导向量在各种任务中表现出强大的可迁移性。在多个模型(DeepSeek-R1-Distill 和 QwQ-32B-Preview)和基准测试(Math500、GSM8K、LiveCodeBench)上的大量实验验证了 SEAL 的有效性,准确率提高了 11%,同时减少了 11.8% 到 50.4% 的推理标记。我们的代码可在 https://github.com/VITA-Group/SEAL 公开获取。