LLM2D

摘要

arXiv:2504.20834v2 宣传类型: 替换-交叉摘要：我们提出了针对在严格内存和计算限制下大型语言模型（LLMs）推理的强化学习（RL）策略，特别关注与LoRA微调的兼容性。我们设计了不依赖于完整的序列更新或单独的评论网络的方法，而是针对一小部分具有信息性的输出令牌进行操作，以减少内存使用并稳定训练过程。我们引入了S-GRPO，这是一种组相对策略优化的随机变体，以及T-SPMO，一种用于细粒度信用分配的令牌级别前缀匹配方法。将这些方法应用于Qwen2-1.5B，我们的方法将SVAMP基准上的准确率从46%提高到超过70%，并在多位数乘法方面表现出强大的性能。令人惊讶的是，LoRA下的全令牌GRPO并未超过基线模型，这表明在低参数训练环境中，选择性的令牌级别优化可能作为一种隐式的正则化器起作用。