LLM2D
PSPO*: 一种有效的过程监督策略优化以实现推理对齐
PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment
作者: Jiawei Li, Xinyue Liang, Junlong Zhang, Yizhe Yang, Chong Feng, Yang Gao
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2411.11681v3

摘要

arXiv:2411.11681v3 宣告类型: 更新 摘要: 过程监督通过在链式思维推理的每一步提供反馈,增强了大型语言模型在推理任务中的性能。然而,由于缺乏有效的过程监督方法,即使是先进的大型语言模型也容易出现逻辑错误和冗余推理。我们认为,过程监督的有效性在很大程度上取决于推理链的准确性和长度。此外,我们发现这些因素与推理过程的整体奖励分数之间存在非线性关系。借鉴这些见解,我们提出了一种新的过程监督范式 PSPO*,系统地概述了从奖励模型训练到策略优化的工作流程,并强调了非线性奖励在过程监督中的重要性。基于 PSPO*,我们开发了 PSPO-WRS,该方法在确定奖励分数时考虑了推理步骤的数量,并利用调整后的韦布尔分布进行非线性奖励塑造。在六个数学推理数据集上的实验结果表明,PSPO-WRS 一致优于当前主流模型。