LLM2D
超出静态人类提示的可扩展强化后训练:通过不对称自我博弈演变对齐
Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play
作者: Ziyu Ye, Rishabh Agarwal, Tianqi Liu, Rishabh Joshi, Sarmishta Velury, Quoc V. Le, Qijun Tan, Yuan Liu
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2411.00062v3

摘要

arXiv:2411.00062v3 宣告类型: replace-cross 摘要:当前针对大型语言模型(LLM)的强化学习(RL)框架通常在训练后假设固定提示分布,这虽然不够优化,但也阻碍了可扩展性。先前的工作已经探索了提示进化的方法,但这些方法通常局限于监督微调阶段,并且提示是无信号地均匀采样和进化的。本文呈现了一种范式转变:通过不对称自博弈进化对齐(eva),将训练后视为一个具有后悔信号的无限游戏,适用于两个参与者:(i)一个创作者,他战略性地采样和创建新的信息性提示,以及 (ii)一个求解者,他学习生成首选的响应。eva 是第一个允许语言模型在离线和在线 RL 训练后自适应地创建训练提示的方法。该设计简单、易用且极其有效:eva 在挑战性基准测试中设定了新的最先进水平,而无需任何额外的人工提示,例如,它将 Arena-Hard 上的 gemma-2-9b-it 的 DPO 对战胜率从 51.6% 提高到 60.1%,RLOO 的胜率从 52.6% 提高到 62.4%,超越了 claude-3-opus,并接近 gemini-1.5-pro,后者大得多。广泛的实验表明,eva 能够创建有效的 RL 课程,并且在消融实验中表现出 robust。我们认为,自适应地进化提示是设计下一代 RL 训练后方案的关键。