摘要
过程监督通过在思维链推理的每个步骤提供反馈来增强大型语言模型在推理任务中的性能。然而,由于缺乏有效的过程监督方法,即使是先进的大型语言模型也容易出现逻辑错误和冗余推理。我们认为过程监督的有效性在很大程度上取决于推理链的准确性和长度。此外,我们发现这些因素与推理过程的整体奖励分数呈非线性关系。受这些见解的启发,我们提出了一种新的过程监督范式 PSPO*,它系统地概述了从奖励模型训练到策略优化的工作流程,并强调了非线性奖励在过程监督中的重要性。基于 PSPO*,我们开发了 PSPO-WRS,它在确定奖励分数时考虑了推理步骤的数量,并利用调整后的威布尔分布进行非线性奖励塑造。在六个数学推理数据集上的实验结果表明,PSPO-WRS 始终优于当前的主流模型。