摘要
arXiv:2504.02976v1 宣告类型:交叉
摘要:本研究利用因果层归因通过激活补丁(CLAP)方法,探讨了对微调后的GPT-2模型的知识表示进行定位。CLAP方法用于识别负责正确答案生成的关键神经层。该模型在9,958篇PubMed摘要上进行了微调(癫痫:20,595次提及,EEG:11,674次提及,发作:13,921次提及),采用两种配置并在验证损失监控下进行早期停止。CLAP涉及以下步骤:(1)缓存干净(正确答案)和损坏(错误答案)的激活;(2)计算logit差异以量化模型的偏好;(3)用干净的激活替换损坏的激活以评估恢复情况。结果显示了三项发现:首先,修补第一前馈层恢复了56%的偏好,这表明关联性知识分布在多个层中。其次,修补最终输出层完全恢复了准确性(100%的恢复),表明定义性知识是局部化的。对于定义性问题,干净logit差异的增强进一步支持了这种局部化的表示。第三,卷积层修补的恢复效果最小(13.6%),表明低级特征对高级推理的贡献较小。统计分析表明,在层特异性方面存在显著影响(p<0.01)。这些发现表明,事实性知识更局部化,关联性知识依赖于分布式的表示。我们还表明,编辑效果取决于任务类型。我们的发现不仅调和了关于模型编辑中局部化观察的矛盾,还强调了适应性技术在可靠、可解释更新中的重要性。