LLM2D
学习在可学习性的前沿进行推理
Learning to Reason at the Frontier of Learnability
作者: Thomas Foster, Jakob Foerster
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.12272v2

摘要

arXiv:2502.12272v2 Announce Type: replace-cross 摘要:强化学习现在被广泛应用于大型语言模型训练的最终阶段,特别是在数学问题等需要推理的任务中。通常,在单次训练步骤中,模型会多次尝试每个问题,并从成功和失败中学习。然而,我们在使用两种流行算法(PPO 和 VinePPO)在两个广泛使用的数据集中训练时发现,许多问题要么所有尝试都能解决,意味着它们已经学会了解决方法,要么根本无法解决,无法提供有意义的训练信号。为了解决这一问题,我们借鉴了强化学习文献中的一个方法——可学习性采样——并将该方法应用于大型语言模型训练的强化学习阶段。我们的课程优先考虑那些成功具有高方差的问题,即那些代理有时能成功,但并不总是成功的问题。我们的研究结果表明,这种方法能够一致地提高多种算法和数据集的训练性能,为大型语言模型中的更高效和有效的强化学习铺平了道路。