LLM2D
在LLM监督微调和偏好学习中减轻遗忘问题
Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning
作者: Heshan Fernando, Han Shen, Parikshit Ram, Yi Zhou, Horst Samulowitz, Nathalie Baracaldo, Tianyi Chen
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2410.15483v3

摘要

arXiv:2410.15483v3 宣告类型: replace-cross 摘要:预训练大语言模型(LLM)的后训练,通常包括监督微调(SFT)阶段和偏好学习(RLHF或DPO)阶段,对于有效和安全的LLM应用至关重要。在后训练广泛采用的方法中,通常会依次进行SFT和RLHF/DPO。然而,从SFT到RLHF/DPO的顺序训练在两者之间的权衡上是次优的:当进行第二阶段的训练时,LLM会逐渐忘记第一阶段的训练内容。我们理论上证明了顺序后训练的次优性。此外,我们提出了一种实用的联合后训练框架,该框架具有理论上的收敛保证,并且在实践中表现优于顺序后训练框架,同时具有相似的计算成本。我们的代码可在 https://github.com/heshandevaka/XRIGHT 获取。