摘要
arXiv:2504.20834v3 Announce Type: replace-cross
摘要:我们提出了一种针对在严格内存和计算限制下大型语言模型(LLMs)推理的强化学习(RL)策略,特别注重与LoRA微调的兼容性。基于早期的策略梯度方法并去除基线减法,我们设计了一种无需评论家的方法,该方法操作于一小部分具有信息性的输出token,以减少内存使用并稳定训练。我们引入了S-GRPO,这是一种分组相对策略优化的随机变体,并引入了T-SPMO,这是一种基于token级别的前缀匹配方法,用于精细的信用分配。应用到Qwen2-1.5B上,我们的方法在SVAMP基准上从46%的准确率提高到超过70%,并在多位数乘法上表现出强劲性能。令人惊讶的是,LoRA下的全token GRPO未能超过基模型,这表明选择性的token级别优化可能在低参数训练环境中起到隐式的正则化作用。