LLM2D

摘要

arXiv:2411.11681v3 宣告类型: 更新摘要: 过程监督通过在链式思维推理的每一步提供反馈，增强了大型语言模型在推理任务中的性能。然而，由于缺乏有效的过程监督方法，即使是先进的大型语言模型也容易出现逻辑错误和冗余推理。我们认为，过程监督的有效性在很大程度上取决于推理链的准确性和长度。此外，我们发现这些因素与推理过程的整体奖励分数之间存在非线性关系。借鉴这些见解，我们提出了一种新的过程监督范式 PSPO*，系统地概述了从奖励模型训练到策略优化的工作流程，并强调了非线性奖励在过程监督中的重要性。基于 PSPO*，我们开发了 PSPO-WRS，该方法在确定奖励分数时考虑了推理步骤的数量，并利用调整后的韦布尔分布进行非线性奖励塑造。在六个数学推理数据集上的实验结果表明，PSPO-WRS 一致优于当前主流模型。