LLM2D

摘要

arXiv:2503.22342v1 宣布类型: 新颖摘要: 本文介绍了一种用于加速基于组相对策略优化（GRPO）推理模型训练的完成修剪策略优化（CPPO）。尽管GRPO非常有效，但由于需要为每个问题采样多个完成，因而导致训练成本高昂。我们的实验和理论分析揭示了完成的数量影响模型的准确性，但同时增加了训练时间的乘法倍数，并非所有完成都对策略训练贡献相当——它们的贡献取决于它们的相对优势。为了解决这些问题，我们提出了CPPO，它修剪掉绝对优势较低的完成，显著减少了用于梯度计算和更新所需的完成数量。此外，我们引入了一种动态完成分配策略，通过结合额外的问题来最大化GPU利用率，进一步提高训练效率。实验结果表明，与原始GRPO相比，CPPO在GSM8K上的加速高达8.32倍，在Math上的加速高达3.51倍，同时保持或甚至提高了准确性。我们已在https://github.com/lzhxmu/CPPO发布了我们的代码。