摘要
arXiv:2408.15313v2 宣告类型: 替换
摘要:通过对大规模语言模型(LLMs)进行微调,通常通过人类反馈强化学习(RLHF)来体现人类偏好,这种方法已在提升模型能力方面取得了成功。然而,在微调过程中确保LLMs的安全性仍然是一个关键问题,减轻安全性和帮助性之间的潜在冲突在RLHF中是代价高昂的。为了解决这一问题,我们提出了一种监督学习框架,称为双因子偏好优化(BFPO),该框架将安全性和帮助性的联合RLHF目标重新参数化为单一的监督学习目标。在监督优化中,使用标签函数来捕捉全局偏好排序,以平衡安全性和帮助性。为了评估BFPO,我们开发了一个基准,其中包括全面的生成性和辨别性任务,以评估帮助性和无害性。结果表明,我们的方法在安全性和帮助性方面显著优于现有方法。此外,BFPO 使用不到10%的计算资源和人类提示及标注过程,就能达到高度依赖人类劳动的方法相同的安全水平。我们的训练食谱可以在以下链接中找到:https://github.com/wx-zhang/bfpo。