LLM2D
基于Q值排名的过程奖励模型
Process Reward Model with Q-Value Rankings
作者: Wendi Li, Yixuan Li
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2410.11287v2

摘要

arXiv:2410.11287v2 宣告类型: replace-cross 摘要:过程奖励建模(PRM)对于那些中间步骤的准确性显著影响最终结果的复杂推理和决策任务至关重要。现有的PRM方法主要以分类问题的形式出现,使用交叉熵损失独立评估每个步骤的正确性。这种方法可能导致奖励分布不理想,并且没有充分解决步骤之间的相互依赖性。为了解决这些限制,我们引入了过程Q值模型(PQM),这是一种新的框架,重新定义了在马尔可夫决策过程背景下PRM。PQM基于一种新颖的比较损失函数优化Q值排名,增强了模型捕捉顺序决策之间复杂动态的能力。这种方法提供了更加精细且理论扎实的过程奖励建模方法。我们在不同采样策略、语言模型基础架构和多步推理基准上的广泛实证评估显示,PQM优于基于分类的PRM。比较损失函数的有效性在我们全面的消融研究中得到了突出体现,证实了PQM的实用性和理论优势。