LLM2D

摘要

arXiv:2504.20834v3 Announce Type: replace-cross 摘要：我们提出了一种针对在严格内存和计算限制下大型语言模型（LLMs）推理的强化学习（RL）策略，特别注重与LoRA微调的兼容性。基于早期的策略梯度方法并去除基线减法，我们设计了一种无需评论家的方法，该方法操作于一小部分具有信息性的输出token，以减少内存使用并稳定训练。我们引入了S-GRPO，这是一种分组相对策略优化的随机变体，并引入了T-SPMO，这是一种基于token级别的前缀匹配方法，用于精细的信用分配。应用到Qwen2-1.5B上，我们的方法在SVAMP基准上从46%的准确率提高到超过70%，并在多位数乘法上表现出强劲性能。令人惊讶的是，LoRA下的全token GRPO未能超过基模型，这表明选择性的token级别优化可能在低参数训练环境中起到隐式的正则化作用。