LLM2D
基于Token效率的LLM推理强化学习
Token-Efficient RL for LLM Reasoning
作者: Alan Lee, Harry Tong
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2504.20834v2

摘要

arXiv:2504.20834v2 宣传类型: 替换-交叉 摘要:我们提出了针对在严格内存和计算限制下大型语言模型(LLMs)推理的强化学习(RL)策略,特别关注与LoRA微调的兼容性。我们设计了不依赖于完整的序列更新或单独的评论网络的方法,而是针对一小部分具有信息性的输出令牌进行操作,以减少内存使用并稳定训练过程。我们引入了S-GRPO,这是一种组相对策略优化的随机变体,以及T-SPMO,一种用于细粒度信用分配的令牌级别前缀匹配方法。将这些方法应用于Qwen2-1.5B,我们的方法将SVAMP基准上的准确率从46%提高到超过70%,并在多位数乘法方面表现出强大的性能。令人惊讶的是,LoRA下的全令牌GRPO并未超过基线模型,这表明在低参数训练环境中,选择性的令牌级别优化可能作为一种隐式的正则化器起作用。