摘要
arXiv:2504.13818v1 声称类型:交叉
摘要:强化学习(RL)已成为增强大型语言模型推理能力的强大范式,但面临着计算和内存需求的基本不对称性:推理几乎是并行的,内存占用 minimal,而策略更新则需要大量同步且内存密集型。为了解决这种不对称性,我们引入了PODS(Policy Optimization with Down-Sampling)框架,该框架通过并行生成大量回放但仅更新一个信息子集来策略性地分离这些阶段。在此框架内,我们开发了max-variance下采样方法,这是一种理论驱动的方法,选择具有最大多样奖励信号的回放。我们证明了这种方法具有高效的算法解决方案,并通过在GSM8K基准测试中使用max-variance下采样的GRPO与标准GRPO的实验演示,证明了PODS实现更好的性能。