LLM2D

摘要

arXiv:2410.15483v3 宣告类型: replace-cross 摘要：预训练大语言模型（LLM）的后训练，通常包括监督微调（SFT）阶段和偏好学习（RLHF或DPO）阶段，对于有效和安全的LLM应用至关重要。在后训练广泛采用的方法中，通常会依次进行SFT和RLHF/DPO。然而，从SFT到RLHF/DPO的顺序训练在两者之间的权衡上是次优的：当进行第二阶段的训练时，LLM会逐渐忘记第一阶段的训练内容。我们理论上证明了顺序后训练的次优性。此外，我们提出了一种实用的联合后训练框架，该框架具有理论上的收敛保证，并且在实践中表现优于顺序后训练框架，同时具有相似的计算成本。我们的代码可在 https://github.com/heshandevaka/XRIGHT 获取。