LLM2D
通过主动学习高效过程奖励模型训练
Efficient Process Reward Model Training via Active Learning
作者: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10559v1

摘要

arXiv:2504.10559v1 交叉类型: cross 摘要: 过程奖励模型(PRMs)为大型语言模型(LLMs)提供了逐步骤的监督,但在扩展训练数据标注方面,对于人类和LLMs来说仍然是一个挑战。为了解决这一限制,我们提出了一种主动学习方法ActPRM,该方法积极选择最不确定的样本进行训练,大大降低了标注成本。在训练过程中,我们使用PRM在前向传播后估计不确定性,并保留只有高度不确定的数据。然后,一个有能力但成本高昂的推理模型对这些数据进行标注。接着,我们根据标注计算损失,并更新PRM的权重。我们比较了ActPRM与传统微调,结果显示ActPRM在基于池的主动学习设置中减少了50%的标注,但达到了相当甚至更好的性能。除了标注效率之外,我们还在ActPRM的筛选下,过滤了超过100万的数学推理轨迹,保留了60%的数据。随后在这个选定的数据集上进行训练,使得在ProcessBench上达到了新的最佳表现75.0%,在PRMBench上达到了65.5%,与同等规模的模型相比。