摘要
arXiv:2504.14379v1 宣告类型: 新
摘要:推理模型如何验证自己的答案?我们通过对CountDown任务使用DeepSeek R1的配方训练模型来研究这个问题。我们利用偏好调整会导致模式塌缩的事实,从而得到一个总是产生高度结构化且易于解析的推理过程序列的模型。在这种设置下,我们进行自上而下和自下而上的分析,逆向工程以了解模型如何验证其输出。我们的自上而下分析揭示了门线性单元(GLU)权重编码验证相关的标记,如“成功”或“错误”,这些权重根据模型推理步骤的正确性而激活。我们的自下而上分析揭示了“前一个标记的头”主要负责模型验证。我们的分析相互交集:借鉴层间通信通道的启发,我们使用识别出的GLU向量定位至多三个注意力头,这些头能够禁用模型验证,这指向了一个潜在更大验证电路必要组成部分。