LLM2D
模型外推加速对齐
Model Extrapolation Expedites Alignment
作者: Chujie Zheng, Ziqi Wang, Heng Ji, Minlie Huang, Nanyun Peng
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2404.16792v3

摘要

arXiv:2404.16792v3 通知类型: 重新交叉 摘要: 鉴于大规模语言模型(LLMs)的偏好对齐训练具有高计算成本,探索有效的方法来减少训练开销仍然是一个重要的且具有吸引力的研究问题。鉴于偏好对齐训练通常只涉及小的参数变化而不向模型注入新知识,我们提出了一种简单的方法,称为ExPO(模型外推),以加快LLMs与人类偏好的对齐。给定一个部分训练的模型及其初始SFT检查点,ExPO通过基于一阶近似简单放大参数变化来改进对齐训练的隐式优化目标,而不增加任何额外的训练开销。通过受控实验,我们证明,ExPO能够将仅使用20%步骤训练的DPO模型的表现提升到优于完全训练的模型。此外,我们展示了ExPO在现有开源LLMs(从1.8B到70B参数)上显著提高了领先AlpacaEval 2.0和MT-Bench基准的表现,这突显了ExPO在高效增强LLM对齐方面更广泛的应用潜力。