LLM2D

摘要

arXiv:2407.10490v3 宣传类型: replace-cross 摘要：学习动力学，即特定训练示例的学习如何影响模型对其他示例的预测，为我们提供了一种强大的工具来理解深度学习系统的行为。我们通过分析影响在不同潜在响应之间累积的方式的逐步分解，研究了在不同类型的微调期间大型语言模型的学习动力学。我们的框架允许对流行算法的指令微调和偏好微调训练中的一些有趣观察进行统一解释。特别是，我们提出了一种假设解释，说明为什么在微调后某些类型的幻觉会被加强，例如，模型可能会使用问题B响应中的短语或事实来回答问题A，或者在生成响应时继续保持重复类似的短语。我们还扩展了我们的框架，并指出了一个独特的“挤压效应”，以解释在离策直接偏好优化(DPO)中观察到的一个现象，即运行DPO过久会使期望的输出变得更不可能。该框架还揭示了政策内DPO及其变体的益处来源。分析不仅为理解LLM的微调提供了一个新的视角，而且还启发了一个简单有效的改进对齐性能的方法。