摘要
arXiv:2411.11681v3 宣告类型: 更新
摘要: 过程监督通过在链式思维推理的每一步提供反馈,增强了大型语言模型在推理任务中的性能。然而,由于缺乏有效的过程监督方法,即使是先进的大型语言模型也容易出现逻辑错误和冗余推理。我们认为,过程监督的有效性在很大程度上取决于推理链的准确性和长度。此外,我们发现这些因素与推理过程的整体奖励分数之间存在非线性关系。借鉴这些见解,我们提出了一种新的过程监督范式 PSPO*,系统地概述了从奖励模型训练到策略优化的工作流程,并强调了非线性奖励在过程监督中的重要性。基于 PSPO*,我们开发了 PSPO-WRS,该方法在确定奖励分数时考虑了推理步骤的数量,并利用调整后的韦布尔分布进行非线性奖励塑造。在六个数学推理数据集上的实验结果表明,PSPO-WRS 一致优于当前主流模型。