LLM2D

摘要

arXiv:2502.11447v2 公告类型: replace-cross 摘要：大型语言模型可解释性研究的基本目标是将“局部化”语义有意义的行为定位到LLM内的特定组件。在LLM中寻找候选位置的各种启发式方法有很多种。一旦找到了候选的局部化位置，通过编辑相应位置的内部表示，并检查这些编辑是否引起了与局部化语义解释一致的模型行为，可以对此进行评估。我们在这里要解决的问题是：这样的编辑能提供多强的证据？为了评估局部化声明，我们需要评估在特定位置进行的最佳干预所产生的效果。关键的新技术工具是将LLM对齐技术改编为寻找这样的最佳局部化编辑的方法。有了这一工具，我们提供了一个例子，其中基于编辑的局部化证据看起来很强，但实际上局部化明显失败。事实上，我们发现，在随机位置进行的最佳编辑与对整个模型进行对齐的效果一样有效。总体而言，我们的结果表明，仅仅观察局部化编辑引起目标行为的变化提供不了多少证据来证明这些位置实际上编码了目标行为。