LLM2D
验证缺口:语言模型在计算算术问题但未能验证其结果的机理分析
The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It
作者: Leonardo Bertolazzi, Philipp Mondorf, Barbara Plank, Raffaella Bernardi
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11771v1

摘要

arXiv:2502.11771v1 交叉类型: cross 摘要:大型语言模型(LLMs)验证其输出并识别潜在错误的能力对于确保其鲁棒性和可靠性至关重要。然而,当前的研究表明LLMs在自我纠正方面存在困难,遇到了显著的错误检测挑战。虽然已经有一些研究探讨了提高LLMs自我纠正能力的方法,但很少有人关注理解模型内部驱动错误检测机制。在本文中,我们对LLMs中的错误检测进行了机制分析,重点关注简单的算术问题。通过电路分析,我们确定了负责检测算术错误的计算子图在四个较小规模的LLMs中。我们的研究发现,所有模型均高度依赖于$\textit{一致性头}$—评估算术解中数值表面级对齐情况的注意力头。此外,我们观察到,模型内部的算术计算主要发生在较高层,而验证则主要在中间层进行,在最终的算术结果完全编码之前。这种算术计算和验证之间的结构性分离似乎解释了当前LLMs为何难以检测即使是简单的算术错误。