LLM2D
训练大型语言模型通过EM策略梯度进行推理
Training Large Language Models to Reason via EM Policy Gradient
作者: Tianbing Xu
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18587v1

摘要

arXiv:2504.18587v1 类型: cross 摘要:最近,如 OpenAI 的 O1 和 O3 以及 DeepSeek 的 R1 等基础模型通过大规模强化学习(RL)展示了强大的推理能力和解决问题的能力,并在数学、编程、科学、智能代理和虚拟助手等领域有着广泛的应用。在此项工作中,我们介绍了一种离策增强学习算法——EM 策略梯度,旨在通过优化推理轨迹的期望回报来增强大规模语言模型(LLM)的推理能力。我们将推理任务构架为一个期望最大化(EM)优化问题,交替地进行多样化推理轨迹的采样和基于奖励的微调。不同于 PPO 和 GRPO,它们依赖于复杂的重要性权重和启发式剪裁,我们的方法提供了一种更简单、更具原则性的离策策略梯度方法,消除了这些复杂性同时保持了强大的性能。我们在 GSM8K 和 MATH(HARD)数据集上评估了 EM 策略梯度的有效性,它在性能上达到了或略优于当前最先进的 GRPO,同时还提供了可扩展性、简洁性和推理简洁性的额外优势。此外,采用我们方法微调的模型表现出认知行为,如子问题分解、自我验证和回溯,这突显了其增强 LLM 推理的可解释性和鲁棒性的潜力。