LLM2D
使用交叉编译器稳健地识别聊天微调过程中引入的概念
Robustly identifying concepts introduced during chat fine-tuning using crosscoders
作者: Julian Minder, Clement Dumas, Caden Juang, Bilal Chugtai, Neel Nanda
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.02922v1

摘要

arXiv:2504.02922v1 Announce Type: cross 摘要:模型对比是研究微调如何改变模型的表示和内部算法的领域。在微调过程中引入了许多有趣的行为,而模型对比提供了一种有前景的视角来解释这些行为。Crosscoders 是一种最近的模型对比方法,它学习一个共享的可解释概念词典,该词典在基础模型和微调模型中都表示为潜在方向,从而使我们能够追踪概念在微调过程中如何变化或出现。值得注意的是,先前的工作在基础模型中观察到了没有方向的概念,并且推测这些模型特有的潜在方向是在微调过程中引入的概念。然而,我们确定了由 crosscoders 的 L1 训练损失引起的问题,这些问题可能导致将某些概念错误地归因于仅限于微调模型,实际上这些概念在两个模型中都存在。我们开发了潜在缩放以通过更准确地衡量每个潜在在模型中的存在来标识这些问题。在比较 Gemma 2 2B 基础模型和聊天模型的实验中,我们发现标准的 crosscoder 颠簸地受到这些问题的影响。基于这些洞见,我们训练了一个使用 BatchTopK 损失的 crosscoder,并表明它显著缓解了这些问题,找到了更多真正特有的聊天概念并且具有高度可解释性。我们建议实践者采用类似的技术。使用 BatchTopK crosscoder,我们成功地识别了一组真正特有的、可解释且因果有效的概念,如“虚假信息”和“个人问题”,以及多个关于不同拒绝触发的细微偏好相关概念。总体而言,我们的工作推进了基于 crosscoder 的模型对比方法的最佳实践,并证明了它可以对聊天微调如何改变语言模型行为提供具体的见解。