LLM2D
CPPO:加速基于群体相对策略优化的推理模型训练
CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models
作者: Zhihang Lin, Mingbao Lin, Yuan Xie, Rongrong Ji
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22342v1

摘要

arXiv:2503.22342v1 宣布类型: 新颖 摘要: 本文介绍了一种用于加速基于组相对策略优化(GRPO)推理模型训练的完成修剪策略优化(CPPO)。尽管GRPO非常有效,但由于需要为每个问题采样多个完成,因而导致训练成本高昂。我们的实验和理论分析揭示了完成的数量影响模型的准确性,但同时增加了训练时间的乘法倍数,并非所有完成都对策略训练贡献相当——它们的贡献取决于它们的相对优势。为了解决这些问题,我们提出了CPPO,它修剪掉绝对优势较低的完成,显著减少了用于梯度计算和更新所需的完成数量。此外,我们引入了一种动态完成分配策略,通过结合额外的问题来最大化GPU利用率,进一步提高训练效率。实验结果表明,与原始GRPO相比,CPPO在GSM8K上的加速高达8.32倍,在Math上的加速高达3.51倍,同时保持或甚至提高了准确性。我们已在https://github.com/lzhxmu/CPPO发布了我们的代码。