摘要
学习动力学,描述特定训练样本的学习如何影响模型对其他样本的预测,为我们提供了一个强大的工具来理解深度学习系统的行为。我们通过分析不同潜在响应之间影响累积的逐步分解,研究了大型语言模型在不同类型的微调过程中的学习动力学。我们的框架允许对许多关于指令微调和偏好微调的流行算法训练的有趣观察进行统一的解释。特别是,我们提出了一个关于为什么特定类型的幻觉在微调后会被加强的假设解释,例如,模型可能会使用响应问题 B 中的短语或事实来回答问题 A,或者模型可能会在生成响应时不断重复类似的简单短语。我们还扩展了我们的框架并强调了一种独特的“挤压效应”来解释之前在离策略直接偏好优化 (DPO) 中观察到的现象,即 DPO 运行时间过长会导致即使是期望的输出也变得不太可能。该框架还提供了对策略内 DPO 和其他变体的优势来源的见解。该分析不仅为理解 LLM 的微调提供了新的视角,而且还激发了一种简单有效的提高对齐性能的方法。