LLM2D

摘要

arXiv:2504.14379v2 声明类型: 替换摘要：推理模型是如何验证自己的答案的？我们通过使用 DeepSeek R1 的配方在 CountDown 任务上训练一个模型来研究这个问题。我们利用偏好调整会导致模式坍塌的事实，从而得到一个总是生成高度结构化的推理序列的模型。在这种设定下，我们进行了自上而下的和自下而上的分析，以反向工程模型是如何验证其输出的。自上而下，我们发现门线性单元（GLU）权重编码验证相关的令牌，如“成功”或“错误”。自下而上，我们发现“前一个令牌头部”主要负责我们在这种设定下的自我验证。我们的分析相辅相成：借鉴跨层通信通道的灵感，我们使用识别出的 GLU 权重来定位最少三个可以禁用自我验证的注意力头，指出一个潜在更大验证电路的必要组成部分。最后，我们验证了类似验证组件在我们的基础模型和通用推理 DeepSeek-R1 模型中也存在。