LLM2D
在可学习性的前沿进行推理学习
Learning to Reason at the Frontier of Learnability
作者: Thomas Foster, Jakob Foerster
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12272v1

摘要

arXiv:2502.12272v1 宣称类型:交叉 摘要:强化学习如今被广泛应用于大型语言模型训练的最终阶段,特别是在如数学问题这类需要推理的任务中。通常,模型会在单次训练步骤中多次尝试每个问题,并从成功的经验和失败中学习。然而,我们通过在两种流行算法(PPO 和 VinePPO)和两种广泛使用的数据集上进行训练,发现许多问题要么所有的尝试都已解决,这意味着这些任务已经在训练中被学习过,要么一次也没有解决,不能提供有意义的训练信号。为解决这一问题,我们借鉴了强化学习文献中的方法——可学习性采样,并将其应用于大型语言模型训练中的强化学习阶段。我们的课程优先考虑那些成功率有高差异的问题,即那些有时成功但并不总是成功的问题。我们的研究结果表明,这种方法在多种算法和数据集上都能一致地提升训练性能,为大型语言模型中的更高效和有效的强化学习铺平了道路。