LLM2D
推理模型知道自己何时正确:探究隐藏状态进行自我验证
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification
作者: Anqi Zhang, Yulin Chen, Jane Pan, Chen Zhao, Aurojit Panda, Jinyang Li, He He
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05419v1

摘要

arXiv:2504.05419v1 宣告类型: 新 摘要: 通过其在推理过程中搜索的能力,推理模型在数学和逻辑推理任务上取得了显著的性能。然而,它们仍然存在过度思考的问题,即使在获得正确答案后,它们也经常进行不必要的推理步骤。这引发了这样一个问题:模型是否可以在推理过程中评估其中间答案的正确性?在本文中,我们研究了推理模型是否通过探针其隐藏状态来编码答案正确性信息。探针的结果能够以高度准确的精度验证中间答案,并产生高度校准的分数。此外,我们发现模型的隐藏状态还编码了未来答案的正确性,从而使在中间答案完全形成之前就能提前预测其正确性成为可能。随后,我们将探针用作验证器,在推理过程中决定是否在中间答案处退出推理,从而在不牺牲性能的情况下将推理令牌的数量减少了24%。这些发现证实了推理模型确实编码了正确性的概念,但却未能利用它,揭示了其显著的提高效率的未开发潜力。