摘要
大型语言模型 (LLM) 的对齐旨在防止模型生成与人类预期不符的内容,这可能导致伦理和法律问题。近年来,来自人类反馈的强化学习 (RLHF) 成为实现对齐最突出的方法。由于 RLHF 阶段在稳定性和可扩展性方面面临挑战,这些挑战源于多个模型之间复杂的交互作用,研究人员正在探索替代方法以实现与 RLHF 相当的效果。然而,这些方法通常依赖于大型高质量数据集。尽管某些方法考虑生成额外数据以扩展数据集,但它们通常将模型训练和数据生成视为独立的静态过程,忽略了这两个过程高度相互依赖的事实,导致生成的數據利用效率低下。为了解决这个问题,我们提出了 PLE,即渐进式标签增强 (Progressively Label Enhancement) 用于 LLM 对齐,这是一个根据生成数据的质量动态调整模型训练过程的框架。具体来说,我们提示模型针对原始查询和由一组精心设计的原则引导的查询生成响应,然后利用动态阈值根据其相应的奖励分数确定两种响应的适当训练方法。实验结果证明了 PLE 与现有 LLM 对齐方法相比的有效性。