LLM2D

摘要

arXiv:2411.00062v3 宣告类型: replace-cross 摘要：当前针对大型语言模型（LLM）的强化学习（RL）框架通常在训练后假设固定提示分布，这虽然不够优化，但也阻碍了可扩展性。先前的工作已经探索了提示进化的方法，但这些方法通常局限于监督微调阶段，并且提示是无信号地均匀采样和进化的。本文呈现了一种范式转变：通过不对称自博弈进化对齐（eva），将训练后视为一个具有后悔信号的无限游戏，适用于两个参与者：（i）一个创作者，他战略性地采样和创建新的信息性提示，以及（ii）一个求解者，他学习生成首选的响应。eva 是第一个允许语言模型在离线和在线 RL 训练后自适应地创建训练提示的方法。该设计简单、易用且极其有效：eva 在挑战性基准测试中设定了新的最先进水平，而无需任何额外的人工提示，例如，它将 Arena-Hard 上的 gemma-2-9b-it 的 DPO 对战胜率从 51.6% 提高到 60.1%，RLOO 的胜率从 52.6% 提高到 62.4%，超越了 claude-3-opus，并接近 gemini-1.5-pro，后者大得多。广泛的实验表明，eva 能够创建有效的 RL 课程，并且在消融实验中表现出 robust。我们认为，自适应地进化提示是设计下一代 RL 训练后方案的关键。