摘要
arXiv:2502.11447v1 Announce Type: cross
摘要:对大型语言模型的可解释性研究的基本抱负是将“局部化”语义上有意义的行为定位到LLM内的特定组件中。存在各种启发式方法来找到LLM内的候选位置。一旦找到了候选的局部化位置,可以通过编辑相应位置的内部表示并检查这种编辑是否导致与该局部化位置的语义解释一致的模型行为来对其进行评估。我们在这里要解决的问题是:此类编辑提供的证据有多强?为了评估局部化,我们需要评估在特定位置进行的最优干预的效果。关键的新技术工具是一种将LLM对齐技术适应以找到此类最优局部化编辑的方法。拥有这种工具后,我们给出一个例子,其中基于编辑的局部化证据看起来很强,但实际上局部化明显失败了。事实上,我们发现,在随机局部化位置进行的最优编辑可能与对整个模型进行对齐同样有效。综合来看,我们的结果表明,仅仅观察局部化编辑诱导出特定行为的变化并不提供这些位置实际上编码目标行为的有力证据。