LLM2D

摘要

arXiv:2502.10581v1 宣传类型: cross 摘要：随着大型语言模型的进化，区分过程监督和结果监督成为区分复杂推理任务中两种关键强化学习方法的关键。虽然过程监督在长期信用分配方面提供了直观的优势，但这些范式的精确关系仍然存在争议。传统智慧认为，由于轨迹级别的覆盖难题，结果监督本质上更具挑战性，因此在收集细粒度的过程监督数据方面投入了大量资源。在本文中，我们朝着解决这一争论迈出了步伐。我们的主要定理表明，在标准数据覆盖假设下，通过结果监督进行强化学习与通过过程监督进行相比，在统计难度上最多仅在时间 horizon 的多项式因子上有所不同。这一结果的核心在于我们的新颖的路径变换测量引理——一个技术工具，它将基于回报的路径测量与步骤级别的分布偏移联系起来。此外，对于具有验证器或滚动部署能力的设置，我们证明任何策略的优势函数可以作为最优的过程奖励模型，从而在结果监督和过程监督之间建立了直接联系。这些发现表明，如果存在的话，结果监督和过程监督之间观察到的性能差距很可能源自算法局限性而非固有的统计困难，这可能会改变我们对强化学习中数据收集和算法设计方法的看法。