LLM2D

摘要

arXiv:2408.15313v2 宣告类型: 替换摘要：通过对大规模语言模型（LLMs）进行微调，通常通过人类反馈强化学习（RLHF）来体现人类偏好，这种方法已在提升模型能力方面取得了成功。然而，在微调过程中确保LLMs的安全性仍然是一个关键问题，减轻安全性和帮助性之间的潜在冲突在RLHF中是代价高昂的。为了解决这一问题，我们提出了一种监督学习框架，称为双因子偏好优化（BFPO），该框架将安全性和帮助性的联合RLHF目标重新参数化为单一的监督学习目标。在监督优化中，使用标签函数来捕捉全局偏好排序，以平衡安全性和帮助性。为了评估BFPO，我们开发了一个基准，其中包括全面的生成性和辨别性任务，以评估帮助性和无害性。结果表明，我们的方法在安全性和帮助性方面显著优于现有方法。此外，BFPO 使用不到10%的计算资源和人类提示及标注过程，就能达到高度依赖人类劳动的方法相同的安全水平。我们的训练食谱可以在以下链接中找到：https://github.com/wx-zhang/bfpo。