LLM2D

摘要

arXiv:2504.07986v1 Announce Type: cross 摘要：大规模语言模型（LLMs），如 OpenAI 的 o1 系列，在扩展链式思考（CoT）推理机制下展示了复杂的推理任务能力。然而，最近的研究揭示了 CoT 推理轨迹中的大量冗余，这不仅增加了推理延迟，还通过对不必要的推理路径产生关注而负向影响了模型性能。为解决这一问题，我们研究了 LLMs 的内部推理结构，并将其分类为三种主要思维类型：执行思维、反思思维和过渡思维。此外，我们的分析表明，过度的反思思维和过渡思维与失败案例密切相关，并且这些思维类别在潜在空间中表现出明显的分离。基于这些发现，我们引入了 SEAL（可控推理校准），这是一种无需训练的方法，可无缝校准 CoT 过程，提高准确率同时展示出显著的效率提升。SEAL 包括一个离线阶段，用于在潜在空间中提取推理引导向量，然后通过使用引导向量进行表示干预来实时校准推理轨迹。值得注意的是，引导向量在各种任务中表现出强大的可迁移性。在多个模型（DeepSeek-R1-Distill 和 QwQ-32B-Preview）和基准测试（Math500、GSM8K、LiveCodeBench）上的大量实验验证了 SEAL 的有效性，准确率提高了 11%，同时减少了 11.8% 到 50.4% 的推理标记。我们的代码可在 https://github.com/VITA-Group/SEAL 公开获取。