LLM2D

摘要

arXiv:2504.02904v1 声明类型: cross 摘要：后训练对于大型语言模型（LLMs）的成功至关重要，它将预训练的基础模型转变为更加有用和对齐的后训练模型。虽然已有许多研究探讨了后训练算法并根据输出评估了后训练模型，但对于后训练如何内部重塑LLMs的研究仍然不足。在本文中，我们从四个角度以机理解析方式对比基础模型和后训练模型，以便更好地理解后训练效果。我们跨模型家族和数据集的研究发现：(1) 后训练不会改变事实知识存储的位置，它会适应基础模型的知识表示方式，同时发展中新的知识表示方式；(2) 真实性和拒绝可以在隐藏表示空间中的线性向量中得到表示。基础模型和后训练模型的真实方向在很大程度上是相似的，并且对于干预是可转移的；(3) 基础模型和后训练模型的拒绝方向不同，且在前向转移方面显示出有限的可转移性；(4) 基础模型和后训练模型之间信心的差异无法归因于熵神经元。我们的研究为了解后训练期间保留和改变的基本机制提供了见解，促进了下游任务如模型引导，并且有可能对未来的研究有解释性和LLM后训练研究产生帮助。