LLM2D

摘要

arXiv:2504.02976v1 宣告类型：交叉摘要：本研究利用因果层归因通过激活补丁（CLAP）方法，探讨了对微调后的GPT-2模型的知识表示进行定位。CLAP方法用于识别负责正确答案生成的关键神经层。该模型在9,958篇PubMed摘要上进行了微调（癫痫：20,595次提及，EEG：11,674次提及，发作：13,921次提及），采用两种配置并在验证损失监控下进行早期停止。CLAP涉及以下步骤：（1）缓存干净（正确答案）和损坏（错误答案）的激活；（2）计算logit差异以量化模型的偏好；（3）用干净的激活替换损坏的激活以评估恢复情况。结果显示了三项发现：首先，修补第一前馈层恢复了56%的偏好，这表明关联性知识分布在多个层中。其次，修补最终输出层完全恢复了准确性（100%的恢复），表明定义性知识是局部化的。对于定义性问题，干净logit差异的增强进一步支持了这种局部化的表示。第三，卷积层修补的恢复效果最小（13.6%），表明低级特征对高级推理的贡献较小。统计分析表明，在层特异性方面存在显著影响（p<0.01）。这些发现表明，事实性知识更局部化，关联性知识依赖于分布式的表示。我们还表明，编辑效果取决于任务类型。我们的发现不仅调和了关于模型编辑中局部化观察的矛盾，还强调了适应性技术在可靠、可解释更新中的重要性。