LLM2D

摘要

arXiv:2504.10559v1 交叉类型: cross 摘要: 过程奖励模型(PRMs)为大型语言模型(LLMs)提供了逐步骤的监督，但在扩展训练数据标注方面，对于人类和LLMs来说仍然是一个挑战。为了解决这一限制，我们提出了一种主动学习方法ActPRM，该方法积极选择最不确定的样本进行训练，大大降低了标注成本。在训练过程中，我们使用PRM在前向传播后估计不确定性，并保留只有高度不确定的数据。然后，一个有能力但成本高昂的推理模型对这些数据进行标注。接着，我们根据标注计算损失，并更新PRM的权重。我们比较了ActPRM与传统微调，结果显示ActPRM在基于池的主动学习设置中减少了50%的标注，但达到了相当甚至更好的性能。除了标注效率之外，我们还在ActPRM的筛选下，过滤了超过100万的数学推理轨迹，保留了60%的数据。随后在这个选定的数据集上进行训练，使得在ProcessBench上达到了新的最佳表现75.0%，在PRMBench上达到了65.5%，与同等规模的模型相比。