摘要
arXiv:2410.15483v3 宣告类型: replace-cross
摘要:预训练大语言模型(LLM)的后训练,通常包括监督微调(SFT)阶段和偏好学习(RLHF或DPO)阶段,对于有效和安全的LLM应用至关重要。在后训练广泛采用的方法中,通常会依次进行SFT和RLHF/DPO。然而,从SFT到RLHF/DPO的顺序训练在两者之间的权衡上是次优的:当进行第二阶段的训练时,LLM会逐渐忘记第一阶段的训练内容。我们理论上证明了顺序后训练的次优性。此外,我们提出了一种实用的联合后训练框架,该框架具有理论上的收敛保证,并且在实践中表现优于顺序后训练框架,同时具有相似的计算成本。我们的代码可在 https://github.com/heshandevaka/XRIGHT 获取。