LLM2D
利用合成偏好数据自增强大型语言模型
Self-Boosting Large Language Models with Synthetic Preference Data
作者: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06961v1

摘要

通过与人类偏好的对齐,大型语言模型 (LLM) 在生成诚实、无害和有帮助的响应方面取得了显著进展。然而,收集高质量偏好数据是一个资源密集型且需要创造力的过程,尤其是在持续改进 LLM 方面。我们引入了 SynPO,这是一种自增强范式,利用合成偏好数据进行模型对齐。SynPO 采用了一种迭代机制,其中一个自提示生成器创建多样化的提示,一个响应改进器逐步改进模型响应。这种方法训练 LLM 自主学习其自身输出的生成奖励,并消除了对大规模提示注释和人类偏好的需求。经过四次 SynPO 迭代后,Llama3-8B 和 Mistral-7B 在指令遵循能力方面显示出显著增强,在 AlpacaEval 2.0 和 ArenaHard 上实现了超过 22.1% 的胜率提升。同时,SynPO 提高了 LLM 在各种任务上的总体性能,在公认的 Open LLM 排行榜上平均得分提高了 3.2 到 5.0 分。