摘要
arXiv:2504.20834v1 类型: cross
摘要: 我们研究了在大语言模型(LLMs)的内存和计算受限条件下,通过强化学习(RL)技术提升目标问题空间内的推理能力。我们专注于与单个40GB GPU上的LoRA微调兼容的无评论者方法,这是学术环境中常见的限制。我们引入了S-GRPO,这是一个记忆高效的Group Relative Policy Optimization变体,以及T-SPMO,这是一种用于细粒度信用分配的令牌级前缀匹配策略。即使在资源有限的情况下,当使用LoRA训练对Qwen2-1.5B进行微调时,这两种方法都能显著提高SVAMP基准测试的准确性,达到超过70%。T-SPMO在多位数乘法任务上的表现也尤为出色,这突显了在硬件限制下进行RL微调的潜力。此外,我们发现我们的全令牌GRPO基准在LoRA微调下没有提高模型在这两项任务上的性能(与基模型相比),这表明我们的记忆高效方法可能作为一种正则化手段,在只更新一小部分参数时稳定训练。