LLM2D
基于Token的有效RL对话生成
Token-Efficient RL for LLM Reasoning
作者: Alan Lee, Harry Tong
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2504.20834v3

摘要

arXiv:2504.20834v3 Announce Type: replace-cross 摘要:我们提出了一种针对在严格内存和计算限制下大型语言模型(LLMs)推理的强化学习(RL)策略,特别注重与LoRA微调的兼容性。基于早期的策略梯度方法并去除基线减法,我们设计了一种无需评论家的方法,该方法操作于一小部分具有信息性的输出token,以减少内存使用并稳定训练。我们引入了S-GRPO,这是一种分组相对策略优化的随机变体,并引入了T-SPMO,这是一种基于token级别的前缀匹配方法,用于精细的信用分配。应用到Qwen2-1.5B上,我们的方法在SVAMP基准上从46%的准确率提高到超过70%,并在多位数乘法上表现出强劲性能。令人惊讶的是,LoRA下的全token GRPO未能超过基模型,这表明选择性的token级别优化可能在低参数训练环境中起到隐式的正则化作用。