LLM2D
CPL:关键计划步骤学习提升大型语言模型在推理任务中的泛化能力
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks
作者: Tianlong Wang, Junzhe Chen, Xueting Han, Jing Bai
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2409.08642v2

摘要

大型语言模型 (LLM) 通过使用自我博弈生成的数据进行强化学习 (RL) 来进行训练,这已成为一种新的学习范式。然而,将 RL 扩展到开发通用推理器仍然是一个研究挑战,因为现有方法侧重于特定任务的推理,而没有充分解决跨更广泛任务的泛化问题。此外,与动作空间有限的传统 RL 不同,LLM 在无限空间中运行,因此必须搜索有价值和多样化的策略以有效地解决问题。为了解决这个问题,我们建议在高级抽象计划的动作空间中搜索,以增强模型的泛化能力,并引入关键计划步骤学习 (CPL),包括:1) 在计划中搜索,使用蒙特卡罗树搜索 (MCTS) 探索多步推理任务中的各种计划步骤;2) 通过步骤级优势偏好优化 (Step-APO) 学习关键计划步骤,该方法将通过 MCTS 获得的步骤偏好的优势估计集成到直接偏好优化 (DPO) 中。这种组合有助于模型有效地学习关键计划步骤,从而增强推理能力和泛化能力。实验结果表明,我们的方法仅在 GSM8K 和 MATH 上进行训练,不仅显着提高了 GSM8K (+10.5%) 和 MATH (+6.5%) 的性能,而且还增强了域外推理基准,例如 HumanEval (+12.2%)、GPQA (+8.6%)、ARC-C (+4.0%)、MMLU-STEM (+2.2%) 和 BBH (+1.8%)。