LLM2D
训练后重塑的大规模语言模型:知识、真实性、拒绝和信心的机制性视角
How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
作者: Hongzhe Du, Weikai Li, Min Cai, Karim Saraipour, Zimin Zhang, Himabindu Lakkaraju, Yizhou Sun, Shichang Zhang
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.02904v1

摘要

arXiv:2504.02904v1 声明类型: cross 摘要:后训练对于大型语言模型(LLMs)的成功至关重要,它将预训练的基础模型转变为更加有用和对齐的后训练模型。虽然已有许多研究探讨了后训练算法并根据输出评估了后训练模型,但对于后训练如何内部重塑LLMs的研究仍然不足。在本文中,我们从四个角度以机理解析方式对比基础模型和后训练模型,以便更好地理解后训练效果。我们跨模型家族和数据集的研究发现:(1) 后训练不会改变事实知识存储的位置,它会适应基础模型的知识表示方式,同时发展中新的知识表示方式;(2) 真实性和拒绝可以在隐藏表示空间中的线性向量中得到表示。基础模型和后训练模型的真实方向在很大程度上是相似的,并且对于干预是可转移的;(3) 基础模型和后训练模型的拒绝方向不同,且在前向转移方面显示出有限的可转移性;(4) 基础模型和后训练模型之间信心的差异无法归因于熵神经元。我们的研究为了解后训练期间保留和改变的基本机制提供了见解,促进了下游任务如模型引导,并且有可能对未来的研究有解释性和LLM后训练研究产生帮助。