LLM2D

摘要

大型语言模型 (LLM) 通过使用自我博弈生成的数据进行强化学习 (RL) 来进行训练，这已成为一种新的学习范式。然而，将 RL 扩展到开发通用推理器仍然是一个研究挑战，因为现有方法侧重于特定任务的推理，而没有充分解决跨更广泛任务的泛化问题。此外，与动作空间有限的传统 RL 不同，LLM 在无限空间中运行，因此必须搜索有价值和多样化的策略以有效地解决问题。为了解决这个问题，我们建议在高级抽象计划的动作空间中搜索，以增强模型的泛化能力，并引入关键计划步骤学习 (CPL)，包括：1) 在计划中搜索，使用蒙特卡罗树搜索 (MCTS) 探索多步推理任务中的各种计划步骤；2) 通过步骤级优势偏好优化 (Step-APO) 学习关键计划步骤，该方法将通过 MCTS 获得的步骤偏好的优势估计集成到直接偏好优化 (DPO) 中。这种组合有助于模型有效地学习关键计划步骤，从而增强推理能力和泛化能力。实验结果表明，我们的方法仅在 GSM8K 和 MATH 上进行训练，不仅显着提高了 GSM8K (+10.5%) 和 MATH (+6.5%) 的性能，而且还增强了域外推理基准，例如 HumanEval (+12.2%)、GPQA (+8.6%)、ARC-C (+4.0%)、MMLU-STEM (+2.2%) 和 BBH (+1.8%)。