LLM2D

摘要

通过与人类偏好的对齐，大型语言模型 (LLM) 在生成诚实、无害和有帮助的响应方面取得了显著进展。然而，收集高质量偏好数据是一个资源密集型且需要创造力的过程，尤其是在持续改进 LLM 方面。我们引入了 SynPO，这是一种自增强范式，利用合成偏好数据进行模型对齐。SynPO 采用了一种迭代机制，其中一个自提示生成器创建多样化的提示，一个响应改进器逐步改进模型响应。这种方法训练 LLM 自主学习其自身输出的生成奖励，并消除了对大规模提示注释和人类偏好的需求。经过四次 SynPO 迭代后，Llama3-8B 和 Mistral-7B 在指令遵循能力方面显示出显著增强，在 AlpacaEval 2.0 和 ArenaHard 上实现了超过 22.1% 的胜率提升。同时，SynPO 提高了 LLM 在各种任务上的总体性能，在公认的 Open LLM 排行榜上平均得分提高了 3.2 到 5.0 分。