LLM2D

摘要

arXiv:2504.20834v1 类型: cross 摘要: 我们研究了在大语言模型（LLMs）的内存和计算受限条件下，通过强化学习（RL）技术提升目标问题空间内的推理能力。我们专注于与单个40GB GPU上的LoRA微调兼容的无评论者方法，这是学术环境中常见的限制。我们引入了S-GRPO，这是一个记忆高效的Group Relative Policy Optimization变体，以及T-SPMO，这是一种用于细粒度信用分配的令牌级前缀匹配策略。即使在资源有限的情况下，当使用LoRA训练对Qwen2-1.5B进行微调时，这两种方法都能显著提高SVAMP基准测试的准确性，达到超过70%。T-SPMO在多位数乘法任务上的表现也尤为出色，这突显了在硬件限制下进行RL微调的潜力。此外，我们发现我们的全令牌GRPO基准在LoRA微调下没有提高模型在这两项任务上的性能（与基模型相比），这表明我们的记忆高效方法可能作为一种正则化手段，在只更新一小部分参数时稳定训练。