LLM2D
任务特定推理模型中自我验证的几何学
The Geometry of Self-Verification in a Task-Specific Reasoning Model
作者: Andrew Lee, Lihao Sun, Chris Wendler, Fernanda Vi\'egas, Martin Wattenberg
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2504.14379v2

摘要

arXiv:2504.14379v2 声明类型: 替换 摘要:推理模型是如何验证自己的答案的?我们通过使用 DeepSeek R1 的配方在 CountDown 任务上训练一个模型来研究这个问题。我们利用偏好调整会导致模式坍塌的事实,从而得到一个总是生成高度结构化的推理序列的模型。在这种设定下,我们进行了自上而下的和自下而上的分析,以反向工程模型是如何验证其输出的。自上而下,我们发现门线性单元(GLU)权重编码验证相关的令牌,如“成功”或“错误”。自下而上,我们发现“前一个令牌头部”主要负责我们在这种设定下的自我验证。我们的分析相辅相成:借鉴跨层通信通道的灵感,我们使用识别出的 GLU 权重来定位最少三个可以禁用自我验证的注意力头,指出一个潜在更大验证电路的必要组成部分。最后,我们验证了类似验证组件在我们的基础模型和通用推理 DeepSeek-R1 模型中也存在。