LLM2D
并非所有的 rollout 都有用:在大规模语言模型强化学习中下采样 rollout
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning
作者: Yixuan Even Xu, Yash Savani, Fei Fang, Zico Kolter
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13818v1

摘要

arXiv:2504.13818v1 声称类型:交叉 摘要:强化学习(RL)已成为增强大型语言模型推理能力的强大范式,但面临着计算和内存需求的基本不对称性:推理几乎是并行的,内存占用 minimal,而策略更新则需要大量同步且内存密集型。为了解决这种不对称性,我们引入了PODS(Policy Optimization with Down-Sampling)框架,该框架通过并行生成大量回放但仅更新一个信息子集来策略性地分离这些阶段。在此框架内,我们开发了max-variance下采样方法,这是一种理论驱动的方法,选择具有最大多样奖励信号的回放。我们证明了这种方法具有高效的算法解决方案,并通过在GSM8K基准测试中使用max-variance下采样的GRPO与标准GRPO的实验演示,证明了PODS实现更好的性能。