摘要
arXiv:2502.10581v2 通告类型: replace-cross
摘要:随着大规模语言模型的发展,区分过程监督和结果监督变得至关重要,这两个关键的强化学习方法用于处理复杂的推理任务。虽然过程监督在长期信用分配方面具有直观的优势,但这些范式的精确关系仍是一个开放的问题。传统的智慧认为,由于轨迹级别覆盖问题,结果监督本质上更具挑战性,因此在收集细粒度的过程监督数据上投入了大量的资源。
在这篇论文中,我们朝着解决这一争论迈出了步伐。我们的主要定理表明,在标准的数据覆盖假设下,通过结果监督进行强化学习与通过过程监督进行强化学习在统计上是相当的,至多相差多项式因子。这一结果的核心是新颖的轨迹测量变换引理——一个技术工具,它将基于回报的轨迹测量与步骤级别的分布转移连接起来。此外,在具有验证器或展开能力的场景下,我们证明了任何政策的优势函数都可以作为最优的过程奖励模型,从而在结果监督和过程监督之间建立了直接的联系。这些发现表明,如果存在性能差距的话,这一差距很可能是由算法限制而非固有的统计困难引起的,这可能会影响我们处理强化学习的数据收集和算法设计方式。