LLM2D

摘要

arXiv:2410.17875v3 宣告类型: 替换-交叉摘要：通过监督微调对大型语言模型（LLMs）进行对齐是将它们定制到特定应用的关键。最近的研究表明，对齐主要调整模型的呈现风格而非其基础知识，这意味着只有模型的某些部分受到显著影响。为了在微观层面上揭示对齐如何影响模型行为，我们提出了一种方法来识别哪些层在对齐过程中最为关键。我们的方法名为ILA，涉及在对齐过程中为每个层的参数变化学习一个二元掩码，作为层重要性的指示器。实验结果表明，尽管所使用的对齐数据集存在巨大差异，但由ILA识别的重要层几乎有90%的重叠，突显了LLM对齐中的基本模式。结果还表明，冻结非关键层可以提高整体模型性能，而选择性地调整最关键层则能在少量性能损失的情况下显著提高微调效率。最后，我们讨论了这些发现如何从LLM对齐扩展到推理。