LLM2D

摘要

arXiv:2502.12272v2 Announce Type: replace-cross 摘要：强化学习现在被广泛应用于大型语言模型训练的最终阶段，特别是在数学问题等需要推理的任务中。通常，在单次训练步骤中，模型会多次尝试每个问题，并从成功和失败中学习。然而，我们在使用两种流行算法（PPO 和 VinePPO）在两个广泛使用的数据集中训练时发现，许多问题要么所有尝试都能解决，意味着它们已经学会了解决方法，要么根本无法解决，无法提供有意义的训练信号。为了解决这一问题，我们借鉴了强化学习文献中的一个方法——可学习性采样——并将该方法应用于大型语言模型训练的强化学习阶段。我们的课程优先考虑那些成功具有高方差的问题，即那些代理有时能成功，但并不总是成功的问题。我们的研究结果表明，这种方法能够一致地提高多种算法和数据集的训练性能，为大型语言模型中的更高效和有效的强化学习铺平了道路。