LLM2D

摘要

arXiv:2504.18587v1 类型: cross 摘要：最近，如 OpenAI 的 O1 和 O3 以及 DeepSeek 的 R1 等基础模型通过大规模强化学习（RL）展示了强大的推理能力和解决问题的能力，并在数学、编程、科学、智能代理和虚拟助手等领域有着广泛的应用。在此项工作中，我们介绍了一种离策增强学习算法——EM 策略梯度，旨在通过优化推理轨迹的期望回报来增强大规模语言模型（LLM）的推理能力。我们将推理任务构架为一个期望最大化（EM）优化问题，交替地进行多样化推理轨迹的采样和基于奖励的微调。不同于 PPO 和 GRPO，它们依赖于复杂的重要性权重和启发式剪裁，我们的方法提供了一种更简单、更具原则性的离策策略梯度方法，消除了这些复杂性同时保持了强大的性能。我们在 GSM8K 和 MATH（HARD）数据集上评估了 EM 策略梯度的有效性，它在性能上达到了或略优于当前最先进的 GRPO，同时还提供了可扩展性、简洁性和推理简洁性的额外优势。此外，采用我们方法微调的模型表现出认知行为，如子问题分解、自我验证和回溯，这突显了其增强 LLM 推理的可解释性和鲁棒性的潜力。