LLM2D

摘要

arXiv:2502.12272v1 宣称类型：交叉摘要：强化学习如今被广泛应用于大型语言模型训练的最终阶段，特别是在如数学问题这类需要推理的任务中。通常，模型会在单次训练步骤中多次尝试每个问题，并从成功的经验和失败中学习。然而，我们通过在两种流行算法（PPO 和 VinePPO）和两种广泛使用的数据集上进行训练，发现许多问题要么所有的尝试都已解决，这意味着这些任务已经在训练中被学习过，要么一次也没有解决，不能提供有意义的训练信号。为解决这一问题，我们借鉴了强化学习文献中的方法——可学习性采样，并将其应用于大型语言模型训练中的强化学习阶段。我们的课程优先考虑那些成功率有高差异的问题，即那些有时成功但并不总是成功的问题。我们的研究结果表明，这种方法在多种算法和数据集上都能一致地提升训练性能，为大型语言模型中的更高效和有效的强化学习铺平了道路。