摘要
arXiv:2502.13943v1 宣布类型: 新
摘要: 当前训练过程奖励模型(PRMs)的方法通常使用基于规则的技术将响应分解为多个推理步骤,例如使用预定义的占位符标记或设置推理步骤的长度为固定大小。这些方法忽视了特定单词通常不标志着文本中的真实决策点这一事实。为解决这个问题,我们提出了一种称为AdaptiveStep的方法,该方法根据模型预测下一个单词的信心程度来划分推理步骤。这种划分方法在每个步骤中提供了更多的决策信息,从而增强了下游任务,如奖励模型的学习。此外,我们的方法不需要手动标注。我们通过在数学推理和代码生成任务中使用AdaptiveStep训练的PRMs的实验证明了其有效性。实验结果表明,该PRM在Best-of-N性能上达到了最先进的水平,超越了基于标记级值引导解码的贪婪搜索策略,并且与现有的开源PRMs相比,构建成本降低了超过30%。此外,我们还对PRM的性能、迁移能力和泛化能力进行了详细分析和案例研究。